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本 书 作为 一 本 视频 图 像 处 理 算法 与 性 能 优化 方法 的 学 术 专车， 既 反映 
了 相关 领域 近年 来 的 最 新 研究 进展 ， 又 给 出 了 作者 在 视频 图 像 处 理 技 术 方 
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计 与 开发 、 智 能 轰 驶 等 领域 的 研究 人 员 、 工 程 技 术 人 员 阅 读 。 
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视频 图 像 处 理 技术 在 智能 汽车 以 及 无 人 驾驶 中 的 应 用 非常 广泛 ， 如 车 道 线 识 
别 、 前 方 车 辆 的 检测 与 识别 、 交 通 标 志 牌 的 识别 、 红 绿灯 识别 等 。 视 频 图 像 处 理 技 
术 在 智能 驾驶 中 的 应 用 中 除了 需要 满足 可 靠 性 和 鲁 棒 性 两 方面 的 要 求 外 ， 实 时 性 也 
是 非常 重要 的 要 求 。 能 够 实时 对 道路 的 实际 情况 做 出 反应 ， 是 智能 驾驶 安全 的 重要 
保证 。 因 此 ， 在 保证 算法 可 靠 性 和 鲁 棒 性 的 前 提 下 ， 研究 视频 图 像 实时 处 理 算法 和 
技术 对 于 智能 驾驶 来 说 至 关 重 要 。 

随 着 通用 计算 图 形 处 理 器 (General Purpose Graphic Processing Unit, GPGPU) 
技术 的 发 展 ，GPU 的 应 用 也 越 来 越 广 泛 。 英 伟 达 (NVIDIA) Tegra 系列 高 性 能 
GPU 计算 平台 推出 后 ， 利 用 高 性 能 计算 技术 实现 智能 驾驶 中 视频 图 像 的 实时 处 理 
成 为 重要 的 发 展 趋势 。 然 而 ， 如 何 编 写 正 确 、 高 效 的 GPU 并 行程 序 成 为 软件 开发 
人 员 面 临 的 一 大 挑战 ， 同 时 GPU 并 行程 序 的 调试 、 性 能 剖析 也 日 益 成 为 CPU 并 行 
软件 开发 的 难题 。GPU 并 行程 序 开发 和 优化 的 本 质 是 实现 算法 特征 向 底层 硬件 架 
构 特 征 的 高 效 映 射 ， 这 就 对 GPU 并 行 软件 开发 人 员 提 出 了 更 高 的 要 求 : FRET 
解 算法 特征 ， 而 且 要 对 底层 架构 有 着 清晰 的 认识 。 这 无 疑 增 加 了 将 GPU 高 性 能 计 
算 技 术 应 用 到 智能 驾驶 视频 图 像 实 时 处 理应 用 中 的 难度 。 

在 这 种 背景 下 ， 本 书 的 出 现 非常 及 时 。 本 书 从 视频 图 像 处 理 在 智能 驾驶 中 的 应 
FA. GPU 体系 架构 与 编程 模型 、GPU 编程 与 优化 、GPU 优化 实际 案例 剖析 、 性 能 
与 能 耗 的 权衡 五 个 方面 ， 详 细 讨 论 了 利用 GPU 高 性 能 计算 技术 实现 智能 驾驶 视频 
图 像 实时 处 理 的 关键 方法 。GPU 编程 的 重要 内 容 是 性 能 优化 ， 这 就 需要 软件 开发 
人 员 在 详细 了 解 GPU 硬件 架构 特征 的 基础 上 ， 根 据 实 际 的 算法 特征 ， 选 择 最 优 的 
优化 方法 组 合 ， 从 而 实现 算法 的 最 佳 性 能 。 本 书 详细 介绍 了 NVIDIA 和 AMD 多 代 
GPU 计算 平台 的 架构 特点 ， 计 算 统 一 设备 架构 (Compute Unified Device Architec- 
ture, CUDA) 与 开放 计算 语言 (Open Computing Language, OpenCL) 两 种 GPU 编 
程 模型 的 比较 以 及 GPU 通用 优化 方法 ， 同 时 提供 了 大 量 的 实际 人 案例， 更 加 深入 地 
讨论 GPU 优化 方法 的 选择 与 应 用 方式 。 通 过 本 书 ， 读 者 可 以 了 解 视 频 图 像 处 理 技 
术 在 智能 驾驶 中 的 应 用 和 GPU 架构 的 发 展 ， 学 习 如 何 使 用 CUDA 开发 高 性 能 的 
GPU 程序 ， 包 括 访 存 优化 、 计 算 优化 和 数据 本 地 化 优化 等 。 

本 书 作 者 梁 军 是 北京 联合 大 学 副教授 ， 李 德 毅 院士 智能 车 团队 的 重要 成 员 。 研 
究 方向 包括 智能 驾驶 、 并 行 算法 及 并 行 软件 的 设计 与 开发 等 ， 实 际 参 与 了 多 辆 智能 
车 并 行 软件 的 开发 、 调 试 和 应 用 ， 本 书 是 作者 根据 自己 在 智能 驾驶 领域 多 年 的 研究 
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基础 和 实际 并 行 编程 经 验 ， 从 开发 优秀 GPU 并 行 软 件 的 本 质 出 发 ， 以 通俗 易 懂 的 
方式 对 最 为 关键 的 基本 知识 和 技术 进行 了 细致 讲解 。 本 书 既 可 成 为 智能 驾驶 领域 的 
参考 书籍 ， 也 可 供 GPU 并 行 软件 开发 人 员 及 高 校 师 生 参 考 , 
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智能 驾驶 是 当前 一 个 主要 的 研究 热点 ， 视 频 图 像 处 理 技术 在 智能 驾驶 领域 
有 着 广泛 应 用 ， 如 车 道 线 检测 、 障 碍 物 识别 、 红 绿灯 识别 和 交通 标志 牌 识别 
等 。 视 频 图 像 实时 处 理 技术 是 智能 轰 驶 领域 的 重要 研究 内 容 ， 也 是 智能 斩 驶 安 
全 的 重要 保证 。 随 着 GPGPU 计算 的 发 展 ， 特 别 是 NVIDIA Tegra 高 性 能 GPU H 
算 平 台 的 推出 ， 通 过 高 性 能 计算 技术 实现 视频 图 像 的 实时 处 理 ， 成 为 当前 重要 
的 研究 热点 和 发 展 趋势 。 

GPGPU 的 出 现 和 发 展 ， 给 并 行 计算 带 来 了 新 的 计算 平台 。 新 计算 平台 需要 
新 方法 来 进行 并 行 软件 开发 。GPU 编程 的 重点 在 于 性 能 优化 ， 经 过 细致 调 优 的 
GPU 程序 可 实现 巨大 的 性 能 提升 。 然 而 ，GPU 编程 的 难点 也 在 于 性 能 优化 ， 并 
行程 序 开发 人 员 不 仅 要 熟悉 算法 特征 ， 还 必须 要 了 解 底层 硬件 架构 特征 ， 这 就 
对 GPU 并 行程 序 开发 人 员 提 出 了 新 的 挑战 。 

近年 来 ， 我 们 跟踪 新 计算 平台 上 视频 图 像 实 时 处 理 技术 的 最 新 进展 并 深入 
研究 ， 试 图 从 算法 和 硬件 架构 两 方面 来 迎接 这 种 挑战 ， 书 中 不 仅 介绍 了 在 智能 
驾驶 中 广泛 应 用 的 视频 图 像 处 理 算法 ,而 且 介 绍 了 多 种 不 同 的 GPU 架构， 在 此 
基础 上 ,分析 了 GPU 编程 和 优化 的 主要 思路 和 方法 ,不仅 能 针对 各 种 独立 的 优 
化 方法 ， 更 重要 的 是 能 针对 各 种 优化 方法 组 合 的 情况 。 研 究 过 程 中 得 到 了 国家 
自然 科学 基金 重大 研究 计划 项 目 、 北 京 市 属 高 等 学 校 高 层次 人 才 引 进 与 培养 计 
划 项 目 、 北 京 市 教育 委员 会 科技 计划 面 上 项 目的 资助 ， 成 果 已 用 到 北京 联合 大 
学 智能 车 上 。 

本 书 作 为 视频 图 像 处 理 技术 理论 研究 和 应 用 的 一 本 学 术 专 著 ， 参 考 了 国内 
外 大 量 的 相关 文献 ， 总 结 了 我 们 近 几 年 来 的 研究 成 果 ， 并 提供 了 大 量 的 实际 案 
例 ， 通 过 实际 案例 的 实现 和 解析 ， 为 读者 提供 一 个 视频 图 像 处 理 算 法 在 GPU 上 
实现 和 优化 的 具体 思路 和 方法 。 读 者 通过 本 书 的 阅读 和 学 习 ， 不 仅 可 以 学 习 视 
频 图 像 处 理 技术 在 智能 驾驶 中 的 应 用 ,而 且 可 以 了 解 GPU 程序 从 实现 到 优化 的 
具体 方法 。 虽 然 本 书 实 际 案例 的 实现 都 是 基于 CUDA， 但 是 本 书 也 比较 了 CUDA 
和 OpenCL 的 异同 ， 本 书 描述 的 优化 方法 也 可 以 非常 方便 地 移植 到 OpenCL 程序 
的 编写 和 优化 中 。 

本 书 可 以 分 成 如 下 四 个 逻辑 单元 : 

口 视频 图 像 处 理 技术 在 智能 驾驶 中 的 应 用 : 第 2 章 在 分 析 了 当前 国内 外 主 
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ooo 视频 图 像 处 理 与 性 能 优化 
的 智能 驾驶 技术 后 ， 详 细 介 绍 了 在 智能 驾驶 中 应 用 广泛 的 几 类 视频 图 像 处 理 
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信号 灯 的 检测 与 识别 技术 等 。 

O GPU 硬件 架构 与 编程 : 第 3 章 介 绍 了 CPU 与 GPU 架构 的 主要 区 别 ， 在 
此 基础 上 ， 对 当前 主流 的 GPU 架构 特征 (包括 NVIDA GPU 和 AMD GPU) 进 
行 了 详细 介绍 ， 这 是 进行 GPU 并 行 编程 和 优化 的 前 提 。 第 4 章 介绍 了 当前 GPU 
主要 的 编程 模型 : CUDA 和 OpenCL， 不 仅 介绍 了 这 两 种 编程 模型 的 关键 概念 和 
定义 、 两 种 编程 模型 的 异同 ; 而 且 通 过 一 个 简单 的 例子 介绍 了 使 用 这 两 种 编程 
模型 进行 GPU 编程 的 主要 流程 和 方法 ， 最 后 给 出 了 GPU 程序 性 能 优化 的 主要 
思路 。 

O 实际 案例 分 析 : 第 5 EAST BHA, MYR, resize 算法 和 La- 
place 算法 等 主要 的 视频 图 像 处 理 算 子 在 GPU 上 的 实现 和 优化 方法 ， 结 合 具 体 
算法 详细 分 析 了 GPU 编程 和 优化 思路 和 方法 。 最 后 第 6 ~8 章 分 别 给 出 了 Can- 
ny、 人 脸 检 测 以 及 激光 雷达 算法 等 具体 实际 应 用 案例 的 GPU 移植 和 优化 方法 。 

口 性 能 与 能 耗 : 第 9 章 从 能 效 评价 指标 、 各 层次 能 耗 优化 策略 以 及 系统 级 
能 耗 优 化 技术 三 个 方面 介绍 了 在 高 性 能 计算 以 及 智能 驾驶 中 对 性 能 与 能 耗 的 
权衡 。 

KERKEZ, KAMA, PAR, AE, RK HH, FR. E 
晶 、 魏 秋明 和 李 上 志 豪 参与 了 本 书 的 编辑 整理 工作 。 在 本 书 编写 、 出 版 的 过 程 
中 ,得 到 了 鲍 深 教授 主持 的 国家 自然 科学 基金 重大 研究 计划 项 目 (91420202) 
的 资助 ， 同时， 也 参考 了 国内 外 大 量 的 论文 和 专著 ， 在 此 一 并 表示 感谢 。 

由 于 时 间 仓 促 ， 书 中 难免 会 出 现 错误 和 不 妥 之 处 ， 恳 请 广大 读者 不 这 批评 
指正 。 
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视频 图 像 处 理 广 泛 地 应 用 于 人 机 交互 、 智 能 监控 、 机 器 视觉 导航 、 工 业 机 器 
人 、 无 人 驾驶 等 各 个 场景 中 。 它 以 视频 图 像 为 分 析 对 象 ， 对 设 定 区 域 的 图 像 进行 分 
析 检 测 ， 将 获得 的 各 项 数据 传输 给 不 同 的 控制 和 决策 系统 ， 具 有 直观 、 高 效 、 检 测 
范围 广 旦 测量 精度 高 的 特点 。 上 述 场景 中 所 应 用 的 视频 图 像 处 理 技术 必须 具有 良好 
的 实时 性 ， 要 求 机 需 视 觉 系 统 的 数据 处 理 速度 必须 与 视频 图 像 同 步 进行 ， 和 否则 会 直 
接 影响 检测 效果 。 

现代 GPU 以 其 强大 的 计算 能 力 、 较 高 的 峰值 带宽 以 及 日 益 增 强 的 可 编程 性 ， 
成 为 当前 高 性 能 计算 系统 中 最 重要 的 加 速 部 件 。CUDA 和 OpenCL 等 GPU 编程 模型 
的 日 益 成 熟 ， 为 开发 人 员 有 效 利用 GPU 的 强大 计算 能 力 提 供 了 条 件 。 优 化 是 GPU 
程序 设计 中 的 重要 内 容 ，GPU 程序 优化 的 本 质 是 从 算法 特性 向 硬件 特征 高 效 映射 
的 过 程 ， 经 过 精心 优化 的 GPU 程序 可 能 会 得 到 几 倍 甚至 几 十 倍 的 性 能 提升 。 

KE, GPU 程序 优化 除 考虑 算法 的 特征 外 ， 还 要 考虑 GPU 底层 硬件 架构 的 特 
性 。 要 编写 高 性 能 的 CPU 程序 ， 需 要 程序 员 对 GPU 的 底层 硬件 架构 特征 有 清晰 的 
认识 。 特 别 是 在 GPU 底层 硬件 架构 日 益 多 样 化 的 今天 ， 分 析 了 解 不 同 GPU 底层 硬 
件 架 构 的 异同 ， 是 编写 高 性 能 GPU 程序 和 实现 性 能 移植 的 重要 前 提 。 












































1.1 视频 图 像 处 理 





随 着 社会 的 进步 和 科学 技术 的 发 展 ， 人 们 对 信息 处 理 与 信息 交流 的 要 求 越 来 越 
高 。 人 类 传递 信息 的 方式 主要 有 三 个 渠道 : 语言 、 文 字 和 图 像 。 从 信息 论 的 角度 来 
看 , “图像” 所 包含 的 信息 量 最 大 ， 其 内 容 非常 广泛 。 不 仅 有 灰 度 ， 还 有 色彩; 不 
仅 有 平面 ， 还 有 立体 等 。 人 类 所 获得 的 外 界 信息 超过 70% 是 来 自 眼睛 摄取 的 图 像 ， 
没有 任何 形式 比 图 像 所 传递 的 信息 更 加 丰富 、 真 切 。 


1.1.1 概述 


图 像 是 用 各 种 观测 系统 以 不 同形 式 和 手段 观测 客观 世界 而 获得 的 ， 可 以 直接 或 
间接 作用 于 人 了 眼 并 进而 产生 视 知 觉 的 实体 ， 其 最 广义 的 观点 是 指 视觉 信息 。 例 如 照 
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片 、 图 画 、 电 视 画 面 以 及 光学 成 像 等 ， 人 类 的 大 部 分 信息 都 是 从 图 像 中 获得 的 。 

随 着 科技 的 发 展 和 时 代 的 不 断 进步 ， 视 频 和 图 像 数 据 处 理 技术 逐渐 成 熟 起 来 ， 
对 人 们 的 生活 和 工作 起 着 重要 的 作用 。 视 频 和 图 像 是 现代 生活 中 必 备 的 元 素 ， 被 广 
泛 地 运用 在 各 个 领域 ， 在 电影 电视 、 视 频 监 控 、 医 学 检查 等 方面 具有 非常 重要 的 作 
用 。 但 视频 和 图 像 处 理 技 术 属 于 先进 的 科技 领域 ， 其 中 涵盖 了 较为 先进 的 技术 和 理 
论 的 应 用 ， 再 加 上 高 新 设备 的 使 用 等 ， 给 图 像 和 视频 处 理 带 来 了 一 定 的 困难 。 要 想 
提高 处 理 技 术 的 水 平和 质量 ， 就 需要 加 深 对 该 搁 术 的 研究 和 探讨 。 

随 着 经 济 的 发 展 和 人 们 生活 水 平 的 提高 ， 视 频 和 图 像 处 理 技 术 在 生活 中 应 用 的 
范围 越 来 越 广 ， 使 人 们 对 新 形势 下 图 像 和 视频 处 理 技术 的 应 用 和 发 展 问题 极为 关 
注 。 数 字 视 频 和 数字 图 像 比 传统 的 图 像 和 视频 分 辨 率 要 高 ， 人 处 理 方便 ,易于 操作 和 
整理 。 但 在 应 用 视频 图 像 处 理 技 术 时 ， 因 为 操作 技术 问题 或 者 客观 因素 等 会 给 视频 
图 像 处 理 技术 的 应 用 带 来 一 些 负面 影响 ， 降 低 了 处 理 技术 的 水 平和 质量 ， 所 以 需要 
加 大 研究 力度 ， 提 高 处 理 技术 水 平 。 

数字 网 像 处 理 的 目的 主要 有 三 个 方面 : 

O 对 图 像 灰 度 做 某 种 变换 ， 增 强 其 中 的 有 用 信息 ， 抑 制 无 用 信息 ， 使 图 像 质 量 
提高 ， 以 便于 人 有 眼 观察 、 理 解 或 便于 计算 机 对 其 作 进一步 的 处 理 。 这 种 处 理 技术 主 
要 有 图 像 增强 、 图 像 复原 和 图 像 编 码 。 

O 用 某 种 特殊 手段 提取 、 描 述 和 分 析 图 像 中 所 包含 的 某 些 特征 或 特殊 的 信息 ， 
主要 目的 是 便于 计算 机 对 图 像 作 进一步 的 分 析 和 理解 ， 多 用 于 模式 识别 、 计 算 机 视 
党 的 预 处 理 等 。 这 类 图 像 处 理 技术 包括 图 像 分 割 、 图 像 识 别 和 特征 提取 等 。 

O 图 像 数 据 的 压缩 ， 以 便于 图 像 的 存储 和 传输 。 

在 视频 监控 领域 ， 有 许多 视频 图 像 处 理 技 术 还 不 完善 ， 给 实际 应 用 带 来 很 多 困 
难 。 经 过 多 方面 视频 图 像 处 理 技术 的 基础 研究 ， 使 我 们 解决 了 以 往 许多 没有 解决 的 
技术 难题 ， 在 以 下 几 方 面 形成 了 很 好 的 技术 成 果 ， 为 解决 视频 监控 领域 中 存在 的 问 
题 黄 定 了 重要 技术 基础 。 

1. 掌握 多 种 先进 的 视频 图 像 处理 能 力 

高 清高 帧 率 实 时 透 雾 处 理 

O 可 实时 处 理 各 种 筋 儿 天气 中 的 视频 图 像 ， 去 除 由 筋 独 造成 的 景象 肛 胱 、 模 糊 
使 人 看 不 清 或 看 不 见 的 情况 ， 能 够 显著 增强 视频 图 像 的 细节 信息 ,使 原来 被 谈 隐 的 
图 像 细 节 得 以 充分 展现 ， 并 保持 原 有 的 色彩 色调 ,使 视频 图 像 变 得 极其 明亮 、 通 透 
和 清晰 ， 从 而 获得 良好 的 图 像 质 量 与 视觉 感受 。 

口 超 低 照 度 处 理 

可 实时 处 理 各 种 低 照 度 环境 下 的 视频 图 像 ， 能 使 极 低 照度 下 的 视频 图 像 变 得 明 
亮 和 清晰 ， 使 人 们 在 黑暗 中 ( 如 缺少 光照 的 夜晚 看 不 见 的 景物 都 能 明亮 清晰 地 
显示 出 来 ， 而 且 不 损失 原 景物 色彩 ， 视 频 感 观 如 同 白 天 效果 。 

O 实时 精细 降 品 处 理 







































































Bla 绪 论 eoo 


可 实时 对 视频 图 像 进行 精细 降 噪 处理 ， 消 除 视 频 图 像 中 的 绝 大 部 分 噪点 ， 从 而 
获得 干净 、 清 晰 的 高 质量 视频 图 像 。 

口 无 损 实 时 放大 处 理 

可 实时 对 视频 图 像 进行 各 种 倍率 的 放大 。 放 大 的 视频 图 像 没有 任何 模糊 和 马赛 
克 ， 并 能 够 对 原 视频 图 像 的 细节 部 分 予以 充分 的 保留 。 

T 强 光 抑制 处 理 

可 实时 对 视频 图 像 中 的 强 光 亮点 或 区 域 进行 抑制 ， 使 强 光 范围 和 亮度 减 小 ， 恢 
复 被 强 光 散射 遮掩 的 目标 景物 的 轮廓 和 色彩 ， 获 得 清晰 的 视频 图 像 。 

口 视频 实时 稳 像 处 理 

可 实时 对 由 颠 艇 或 晃动 造成 的 视频 图 像 的 摆动 进行 图 像 稳 定性 处 理 ， 从 而 获得 
稳定 的 视频 图 像 ， 处 理 效果 已 经 超过 “美国 识 营 模 糊 处 理 系统 ”。 

口 去 除 模糊 处 理 

可 处 理 图 像 中 的 散 焦 模糊 和 运动 模糊 等 ,使 被 观察 景物 的 图 像 变 得 清晰 。 

2. 强大 的 实时 处 理 能 

对 有 具有 各 种 清晰 度 和 各 种 帧 率 的 视频 图 像 都 能 进行 完美 的 实时 处 理 ， 观 看 上 没 
有 任何 时 间 延 迟 ， 完 全 保证 了 在 各 种 视频 应 用 领域 中 对 监控 视频 实时 性 的 严格 
要 求 。 

3. 小 尺寸 和 低能 

视频 处 理 系统 可 以 做 到 小 尺寸 和 低能 耗 ， 当 空间 和 能 耗 有 特殊 要 求 时 ， 能 给 予 
令 人 满意 的 解决 方案 。 


1.1.2 视频 图 像 处 理发 展 与 应 用 


图 形 图 像 处 理 起 源 于 20 世纪 20 年 代 ， 当 时 通过 海底 电缆 从 英国 伦敦 到 美国 纽 
约 采 用 数字 压缩 技术 传输 了 第 一 幅 数 字 照 片 。 此 后 随 着 遥感 等 领域 的 应 用 ， 图 形 图 
像 处 理 技 术 逐 步 得 到 发 展 。 一 直到 20 世纪 50 年 代 ， 随 着 大 型 数字 计算 机 和 太空 科 
学 研究 计划 的 出 现 ， 人 们 才 注 意 到 图 像 处 理 的 发 展 潜力 。 早 期 图 像 处 理 是 改善 图 像 
质量 ， 以 改善 人 的 视觉 效果 为 目的 。 输 入 的 是 质量 低 的 图 像 ， 输 出 的 是 改善 质量 后 
的 图 像 。 首 次 获得 成 功 应 用 的 是 美国 喷气 推进 实验 室 ， 他 们 对 航天 探测 器 “徘徊 
者 7 号 ”在 1964 年 发 回 的 几 千 张 月 球 照片 进行 了 图 像 处 理 ， 如 几何 校正 、 灰 度 变 
换 、 去 除 噪声 等 ， 并 考虑 了 太阳 位 置 和 月 球 环 境 的 影响 ， 由 计算 机 成 功 绘制 出 月 球 
表面 地 图 ， 获 得 了 巨大 的 成 功 。 这 标志 着 第 三 代 计算 机 问世 后 数字 图 像 处 理 开始 得 
到 普遍 应 用 。20 世纪 80 年 代 未 ， 人 们 开始 将 其 应 用 于 地 理 信息 系统 ， 研 究 海 图 的 
自动 读 取 和 自动 生成 方法 。 进 入 21 世纪 ， 随 着 计算 机 技术 的 迅猛 发 展 和 相关 理论 
的 不 断 完善 ， 视 频 图 像 处 理 技术 在 许多 应 用 领域 受到 了 广泛 重视 并 取得 了 重大 的 开 
拓 性 成 就 ， 视 频 图 像 处 理 成 为 具有 发 展 前 景 的 新 技术 。 视 频 图 像 处 理应 用 领域 包括 
航空 航天 、 生 物 医 学 、 机 絮 人 视觉 、 无 人 痪 驶 技术 、 公 共 安 全 、 文 化 艺术 等 。 图 像 
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ooo 视频 图 像 处 理 与 性 能 优化 


是 人 类 获取 和 交换 信息 的 主要 来 源 ， 图 像 处 理 的 应 用 领域 必然 涉及 人 类 生活 和 工作 
的 方方面面 ， 随 着 人 类 活动 范围 的 不 断 扩 大 ， 视 频 图 像 处 理 的 应 用 领域 也 不 断 
扩大 。 

视频 图 像 处 理 技术 应 用 在 智能 交通 领域 。 交 通 系 统 中 ， 基 于 视频 图 像 的 目标 检 
测 技术 综合 了 数字 视频 图 像 处 理 和 人 工 模式 识别 的 相关 技术 。 它 以 视频 图 像 为 分 析 
对 象 ， 通 过 对 设 定 区 域 的 图 像 进行 分 析 得 到 交通 信息 ， 具 有 直观 、 高 效 、 检 测 范围 
广 旦 测量 精度 高 的 特点 。 同 时 其 抗 干 扰 能 力 强 ， 先 进 的 数字 图 像 处 理 技术 可 以 消除 
许多 自然 及 人 为 干扰 。 在 智能 交通 电视 监控 的 基础 上 ， 视 频 检测 获得 的 各 项 数据 可 
以 传达 给 各 个 交通 信号 控制 系统 ， 从 而 与 其 形成 一 个 有 机 的 整体 。 

随 着 智能 车 辆 的 飞速 发 展 ， 视 频 图 像 处 理 技术 在 道路 行车 安全 方面 的 应 用 也 越 
发 普遍 。 视 频 图 像 处 理 系统 是 汽车 在 道路 行驶 过 程 中 的 重要 的 安全 辅助 设备 ， 主 要 
包括 视频 采集 和 图 像 处 理 两 个 系统 。 视 频 图 像 处 理 系统 通过 显示 设备 直接 将 汽车 周 
围 的 路 况 信 息 告知 驾驶 人 ， 使 得 驾驶 人 能 够 更 为 灵活 地 调整 车 辆 行驶 状态 ， 减 少 不 
必要 的 意外 交通 事故 ， 提 高 道路 交通 行车 驾驶 的 安全 性 。 

随 着 数字 视频 图 像 信息 处 理 技术 的 发 展 ， 人 们 对 于 获取 具有 稳定 性 能 、 实 时 性 
能 的 高 品质 图 像 的 要 求 也 日 益 显 著 ， 尤 其 是 对 多 路 智能 车 辆 视频 图 像 处 理 技术 的 需 
求 越 来 越 突出 。 随 着 无 人 驾驶 车 辆 ( 如 智能 电动 车 ) 的 出 现 ， 视 频 和 图 像 成 为 智 
能 电动 车 的 眼睛 ， 在 车 辆 行车 过 程 中 ， 安 装 在 车 辆 上 的 摄像 头 不 断 地 采集 路 况 信 
息 ， 并 将 其 传送 到 主 处 理 器 的 内 核 中 进行 数据 信息 处 理 。 通 过 对 处 理 的 数据 信息 进 
行 相应 的 逻辑 判断 ， 改 变 电 劲 机 的 运行 状态 ， 以 控制 智能 电动 车 的 行车 路 线 ， 实 现 
电动 智能 控制 。 视 频 图 像 处 理 在 智能 电动 车 领域 具有 较 好 的 应 用 前 景 ， 特 别 是 在 车 
载 360° 环 视 显 示 系 统 上 的 应 用 。 

视频 图 像 处 理 技术 在 体育 运动 项 目 中 起 很 大 的 作用 。 例 如 在 奥运 会 的 自由 泳 项 
目 中 采用 视频 图 形 处 理 技术 ， 利 用 摄像 设备 将 运动 员 的 游泳 动作 录制 下 来 ， 从 各 个 
角度 来 分 析 运 动员 的 动作 和 姿态 ， 看 是 否 犯 规 等 。 另 外 ， 还 可 以 用 图 形 和 视频 处 理 
软件 来 分 析 运 动员 成 绩 的 好 坏 等 。 

视频 图 像 处 理 技术 在 视频 监控 中 具有 很 好 的 效果 ， 例 如 在 交通 视频 、 银 行 视 
频 、 仓 库 视 频 监控 中 发 挥 着 重要 作用 。 一 旦 出 现 事故 等 ， 监 管 人 员 可 以 对 监控 的 图 
像 进行 分 析 和 处 理 ， 得 到 想 要 的 数据 。 

在 航空 航天 设备 上 安装 图 形 视频 收录 设备 ， 可 以 时 刻 把 握 航 空 设 备 的 动态 情 
况 ， 利 用 图 像 和 视频 处 理 软件 来 分 析 收 录 设 备 获 得 的 信息 ， 然 后 经 过 分 析 和 整理 得 
到 需要 探查 的 气象 、 地 理 环境 、 资 源 等 要 素 。 

视频 图 像 处 理 技 术 在 生物 医学 工程 方面 的 应 用 非常 广泛 ， 比 如 对 医用 显微镜 图 
像 的 分 析 ， 而 且 在 应 用 过 程 中 还 取得 了 非常 显著 的 效果 。 此 外 ， 视 频 处 理 技 术 在 X 
光 肺 部 图 像 增 晰 、 超 声波 图 像 处 理 等 医学 诊断 方面 的 应 用 也 十 分 普遍 ， 为 医学 研究 
提供 了 方便 。 
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第 1 章 绪 i eee 


在 文化 艺术 领域 ， 视 频 图 像 处理 技 术 的 应 用 也 比较 广泛 ， 例 如 电视 画面 的 数字 
编辑 、 动 画 制作 、 电 子 游 戏 等 都 用 到 了 数字 处 理 技术 。 而 且 随 着 数字 图 像 技术 的 快 
速 发 展 及 广泛 应 用 ， 还 衍生 出 了 新 的 艺术 一 一 计算 机 美术 。 

视频 图 像 处 理 技 术 是 现代 生活 中 必 备 的 技术 ,被 广泛 地 运用 在 各 个 领域 ， 如 电 
影 电视 、 视 频 监控 、 医 学 检查 等 。 但 视频 和 图 像 处 理 拉 术 属于 先进 的 技术 领域 , 涵 
盖 了 较为 先进 的 技术 和 理论 应 用 ， 青 加 上 设备 的 使 用 等 ， 给 图 像 和 视频 处 理 带 来 了 
一 定 的 困难 。 所 以 要 想 提高 处 理 技 术 的 水 平和 质量 ， 就 需要 加 深 对 该 技术 的 研究 。 


1.1.3 视频 图 像 处 理 算 法 关键 技术 


视频 图 像 处 理 过 程 中 会 涉及 对 视频 图 像 数 据 的 获取 、 传 输 、 整 理 、 显 示 和 回放 
等 过 程 ， 这 些 过 程 共 同形 成 了 一 个 系统 的 整体 周期 ， 可 以 进行 连续 性 的 运作 。 在 视 
频 图 像 处理 技 术 范 围 内 最 主要 的 就 是 视频 图 像 处 理 技术 和 图 像 压 缩 技术 等 。 图 像 压 
缩 技术 是 视频 图 像 处理 技 术 中 最 为 重要 的 一 个 环节 ， 需 要 高 度 重 视 。 首 先 要 明确 图 
像 处 理 依靠 的 是 图 像 处理 算 法 和 处 理 的 效果 。 图 像 处 理 方式 决定 了 图 像 处 理 技术 的 
质量 和 水 平 ， 在 一 定 程度 上 影响 了 整体 的 运行 效率 。 和 常用 的 图 像 处 理 方法 有 图 像 增 
强 、 复 原 、 编 码 、 压 缩 等 。 

要 解决 众多 的 视频 图 像 处 理应 用 问题 ， 必 须 研究 出 有 效 的 图 像 处 理 方法 。 可 以 
将 图 像 处理 关 键 技术 归纳 为 以 下 几 类 : 

1. 图 像 获取 、 表 示 和 表现 

该 过 程 主要 是 把 模拟 图 像 信 号 转化 为 计算 机 所 能 接受 的 数字 形式 ， 以 及 把 数字 
图 像 显 示 和 表现 出 来 。 这 一 过 程 主要 包括 摄取 图 像 、 光 电 转 换 及 数字 化 几 个 步骤 。 

2. 图 像 增强 

图 像 增强 (Image Enhancement) 是 用 来 强调 图 像 的 某 些 特征 ， 以 便 进一步 分 
析 。 当 无 法 得 知 图 像 退 化 有 关 的 定量 信息 时 ， 可 以 使 用 图 像 增强 技术 较为 主观 地 改 
善 图 像 的 质量 。 图 像 增强 技术 是 改善 图 像 视觉 质量 的 一 种 重要 手段 ， 包 括 去 除 图像 
噪声 、 增 强 图 像 对 比 度 与 提高 图 像 的 清晰 度 等 。 

图 像 增强 技术 是 不 考虑 图 像 降 质 的 原因 ， 只 将 图 像 中 重要 的 特征 有 选择 性 地 突 
出 ， 而 衰减 其 不 需要 的 特征 ， 所 以 改善 后 的 图 像 不 一 定 要 去 逼近 原 图 像 。 从 图 像 质 
量 评价 观点 来 看 ， 图 像 增强 的 主要 目的 是 提高 图 像 的 可 懂 度 。 图 像 增强 技术 有 两 类 
方法 : 空域 法 和 频 域 法 。 空 域 法 主要 在 空域 内 对 像素 灰 度 值 直 接 运 算 处 理 ， 如 图 像 
灰 度 变换 、 直 方 图 修正 、 图 像 空 域 平滑 和 锐 化 处 理 、 伪 彩色 处 理 等 。 图 像 增强 的 频 
域 法 就 是 在 图 像 的 某 种 变换 域内 ， 对 图 像 的 变换 值 进行 计算 ， 如 傅 里 叶 变换 等 。 

3. 图 像 恢 复 

图 像 恢复 是 通过 计算 机 处 理 ， 对 质量 下 降 的 图 像 加 以 重建 或 恢复 的 处 理 过 程 。 
因 摄 像 机 与 物体 相对 运动 、 系 统 误差 、 畸 变 、 噪 声 等 因素 的 影响 ， 使 图 像 往往 不 是 
真实 景物 的 完善 映像 。 在 图 像 恢 复 中 ， 需 建立 造成 图 像 质 量 下 降 的 退化 模型 ， 然 后 
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通过 反 向 过 程 来 恢复 原 图 像 ， 并 运用 一 定 准则 来 判定 是 否 得 到 图 像 的 最 佳 恢复 。 在 
遥感 图 像 处 理 中 ， 为 消除 遥感 图 像 的 失真 、 畸 变 ， 恢 复 目 标的 反射 波谱 特性 和 正确 
的 几何 位 置 ， 通 常 需要 对 图 像 进行 恢复 处 理 ， 包 括 辐 射 校正 、 大 气 校 正 、 条 带 噪声 
消除 、 几 何 校正 等 内 容 。 

4. 图 像 重 建 

图 像 重建 是 通过 物体 外 部 测量 的 数据 ， 经 过 数字 处 理 获 得 三 维 物体 的 形状 信息 
的 技术 。 图 像 重建 技术 开始 是 在 放射 医疗 设备 中 应 用 ， 显 示人 体 各 部 分 的 图 像 ， 即 
计算 机 上 断层 摄影 技术 ， 简 称 CT 技术 ， 后 逐渐 在 许多 领域 获得 应 用 ， 主 要 有 投影 3 
建 、 明 暗 恢复 形状 、 立 体 视觉 重建 和 激光 测 距 重 建 。 

5. ARE 
像 压 缩 可 以 是 有 损 数 据 压缩 ， 也 可 以 是 无 损 数据 压缩 。 对 于 如 绘制 的 技术 
图 、 图 表 或 者 漫画 ,优先 使 用 无 损 压 缩 ， 这 是 因为 有 损 压缩 方法 (尤其 是 在 低 的 
位 速 条 件 下 ) 将 会 带 来 压缩 失真 。 对 于 医疗 图 像 或 者 用 于 存档 的 扫描 图 像 等 这 些 
有 价值 的 内 容 的 压缩 ， 也 尽量 选择 无 损 压 缩 方法 。 有 损 压 缩 方法 非常 适合 于 自然 的 
图 像 ， 例 如 一 些 应 用 中 图 像 的 微小 损失 是 可 以 接受 的 ， 这 样 就 可 以 大 幅度 地 减 小 
位 速 。 

6. 图 像 分 割 

图 像 分 割 就 是 把 图 像 分 成 者 干 个 特定 的 、 具 有 独特 性 质 的 区 域 并 提出 感 兴趣 目 
标的 技术 和 过 程 。 它 是 由 图 像 处 理 到 图 像 分 析 的 关键 步骤 。 


1.2 视频 图 像 处 理 在 智能 驾驶 领域 的 应 用 


为 了 改善 混乱 的 交通 状况 ， 减 少 拥堵 ， 提 升 运 输 效 率 并 提高 交通 的 安全 性 , 研 
发 人 员 运 用 各 种 高 新 技术 ， 系 统 地 解决 道路 交通 问题 ， 开 拓 了 新 的 研究 和 应 用 领 
域 一 一 智能 交通 系统 (Intelligent Transportation System ，ITS ) 。 它 是 当今 国际 交通 运 
输 科技 和 信息 技术 科技 竞争 的 热点 。 视 频 图 像 处 理 搁 术 从 广义 上 可 以 看 作 是 各 种 视 
频 图 像 加 工 技术 的 总 称 ， 是 随 着 计算 机 技术 和 超大 规模 集成 电路 (Very Large Scale 
Integration, VLSI) 技术 而 产生 、 发 展 和 不 断 成 熟 起 来 的 一 个 新 兴 技 术 领 域 。 


1.2.1 概述 


随 着 智能 汽车 以 及 无 人 驾驶 技术 的 快速 发 展 ， 交 通 标志 识别 技术 的 研究 正面 临 
许多 新 要 求 、 新 挑 成 。 人 迫切 需要 有 更 加 快速 与 适应 性 良好 的 检测 分 割 技术 与 特征 提 
取 识 别 方法 来 提升 系统 的 可 等 性 、 鲁 棒 性 、 实 时 性 。 无 人 驾驶 车 辆 ， 又 称 为 无 人 
车 、 自 主 车 、 智 能 车 辆 、 室 外轮 式 移动 机 器 人 等 ， 涉 及 认 知 科学 、 人 工 智能 、 机 融 
人 技术 与 车 辆 工程 等 交叉 学 科 ， 是 各 种 新 兴 技 术 的 综合 试验 平台 与 理想 载体 ， 也 是 
当今 前 沿 科技 的 重要 发 展 方向 。 无 人 驾驶 智能 车 的 问世 ， 为 人 们 提供 了 一 种 全 新 的 
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思路 来 解决 因 交 通 而 带 来 的 诸多 问题 。 

A 20 世纪 70 年 代 起 ， 欧 美 等 发 达 国家 开始 研究 无 人 驾驶 汽车 技术 。 时 至 今 
日 ， 智 能 车 的 发 展 进 程 大致 可 分 为 两 个 阶段 。 在 第 一 阶段 内 ， 科 研 成 果 只 应 用 于 军 
事 ; 而 到 第 二 阶段 后 ， 则 把 技术 更 多 地 应 用 到 了 高 速 公 路 及 城市 环境 中 ， 并 且 与 智 
能 交通 系统 结合 到 一 起 。 国 外 对 于 智能 车 的 研究 投入 不 断 加 大 ， 在 技术 的 创新 性 上 
相继 取得 突破 ， 为 提高 智能 车 辆 行驶 的 稳定 性 及 安全 性 做 出 了 巨大 贡献 ， 并 产生 了 
一 定 的 社会 效益 和 经 济 效益 。 

与 发 达 国 家 相 比 ， 我 国 在 智能 车 的 研究 领域 内 起 步 较 晚 ， 在 研发 水 平 上 存在 一 
定 差 距 。 但 随 着 科研 机 构 及 大 批 学 者 的 加 入 ， 也 取得 了 一 些 积极 的 成 果 。 目 前 在 这 
方面 进行 科研 的 主要 有 一 些 理工 类 高 校 和 研究 所 ， 如 国防 科技 大 学 、 清 华 大 学 、 北 
京 理工 大 学 、 沈 阳 自 动 化 研究 所 、 吉 林 大 学 、 西 安 交 通 大 学 、 长 安 大 学 等 。 国 内 专 
家 学 者 在 模式 识别 、 多 传感器 信息 融合 、GPS 路 径 规划 、 无 人 车 自主 驾驶 等 多 个 方 
面 进行 刻苦 钻研 ， 提 高 了 国内 的 知识 创新 水 平 ， 缩 小 了 与 先进 国家 的 差距 。 

随 着 现代 科学 技术 的 发 展 ， 特 别 是 图 像 处 理 技术 、 计 算 机 视觉 技术 、 机 器 学 习 
技术 的 长 足 进 步 与 系统 工程 思想 的 深入 ， 人 们 在 对 这 些 技术 进行 集成 的 基础 上 提出 
了 许多 新 的 交通 标志 检测 与 识别 方法 ,使 得 交通 标志 检测 与 识别 的 研究 越 来 越 趋向 
于 实际 应 用 。 而 如 何 提高 在 复杂 的 真实 场景 中 交通 标志 的 定位 准确 率 和 分 类 准确 
率 ， 如 何 提高 检测 分 割 、 特 征 提取 、 分 类 算法 的 处 理 速 度 ， 如 何 使 得 所 采用 的 技术 
以 及 开发 的 系统 具有 广泛 的 适用 性 与 实际 使 用 价值 等 ， 成 为 许多 交通 标志 识别 研究 
领域 的 相关 学 者 与 机 构 急需 解决 的 共性 问题 。 


1.2.2 视频 图 像 处 理 在 智能 驾驶 领域 的 应 用 与 发 展 


视频 图 像 处 理 技术 在 ITS 领域 中 具有 极其 广阔 的 应 用 ， 例 如 交通 监视 、 交 通 统 
计 、 车 道 线 提取 、 和 车牌 识别 等 。 现 在 最 直接 也 最 令 人 感 兴趣 的 应 用 是 交通 标志 牌 的 
检测 和 识别 。 

近年 来 ， 为 解决 以 交通 事故 和 交通 拥堵 为 主 的 各 类 交通 问题 ， 世 界 各 国都 在 智 
能 交通 系统 的 领域 中 展开 了 各 项 研究 。 智 能 汽车 (Intelligent Vehicle, IV) 的 车 辆 
控制 系统 是 智能 交通 系统 的 重要 组 成 部 分 ， 是 一 个 集成 了 环境 感知 、 规 划 决 策 、 多 
等 级 辅助 驾驶 等 功能 的 综合 系统 。 它 集中 地 运用 了 计算 机 、 现 代 传 感 、 通 信 、 信 息 
融合 、 自 动 控制 及 人 工 智 能 等 技术 ,识别 本 车 所 处 的 环境 和 状态 ， 根 据 不 同 传 感 融 
捕 换 到 的 信息 做 出 处 理 和 判断 ， 辅 助 或 蔡 代 驾驶 人 控制 车 辆 ， 是 减轻 驾驶 人 负担 、 
提高 汽车 行驶 安全 的 先进 运载 工具 。 安 全 辅助 驾驶 (Safety Driving Assist, SDA) 
技术 是 车 辆 控制 边缘 检测 、 车 道 线 检 测 、 交 通 标志 牌 检测 与 识别 系统 的 核心 ， 而 
SDA 中 最 主要 的 研究 内 容 在 于 车 道 线 和 前 方 车 辆 的 检测 与 识别 。 在 智能 车 的 控制 
系统 中 ， 车 道 线 及 前 方 车 辆 检测 的 实现 程度 ， 直 接 决定 了 预警 的 及 时 性 及 测 距 的 准 
确 性 。 因 此 ， 实 时 地 进行 车 道 线 及 前 方 车 辆 的 检测 与 识别 ， 计 算出 它们 到 本 车 的 真 
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实 距离 ， 使 系统 在 发 现 危 险 信号 时 做 出 预警 ， 其 至 在 未 来 实现 民用 汽车 的 全 自动 驾 
驶 ， 对 于 有 效 防止 由 偏离 车 道 和 追尾 碰撞 等 引发 的 恶性 交通 事故 具有 重大 意义 。 

车 道 线 的 检测 与 跟踪 是 实现 智能 车 自动 驾驶 技术 的 基础 ， 也 是 其 关键 技术 之 
一 。 目 前 ， 有 些 发 达 国 家 已 成 功 研 究 出 了 一 些 基于 视觉 传感器 的 道路 检测 与 跟踪 系 
统 。 具 有 代表 性 的 如 ALVINN RA, SCARF AZ, RALPH 系统 、GOLD 系统 和 LO- 
IS 系统 。 在 车 道 线 识别 技术 上 ， 专 家 学 者 们 分 别 基 于 不 同 的 传感器 数据 信息 进行 
了 研究 ， 其 中 主要 包括 激光 雷达 、 立 体 视觉 和 单 目 视觉 这 三 个 方面 。 

道路 上 的 交通 标志 是 一 种 有 很 显著 的 颜色 和 形状 特征 的 公共 标识 ， 对 驾驶 人 起 
到 指示 、 提 示 和 警示 等 作用 ， 其 中 包含 了 非常 丰富 的 导航 信息 。 在 实际 驾驶 中 ， 准 
确 地 识别 交通 标志 对 于 提高 道路 玖 驶 安全 性 能 具有 非常 重要 的 意义 ， 而 忽视 交通 标 
志 可 能 会 造成 非常 严重 的 事故 。 对 于 无 人 驾驶 的 汽车 ， 如 果 不 能 自动 地 检测 并 正确 
地 识别 交通 标志 ， 就 不 可 能 实现 真正 意义 上 的 自主 控制 。 此 外 ， 交 通 标志 的 自动 识 
别 还 可 广泛 应 用 于 自 适 应 巡航 控制 ， 以 及 其 他 辅助 驾驶 中 。 

交通 标志 识别 的 主要 困难 表现 在 : 

口 各 种 不 同 交通 标志 出 现 的 频率 大 不 一 样 ， 因 此 各 个 类 别 的 训练 数目 可 能 存在 
很 大 差异 ， 这 是 典型 的 非 平衡 分 类 问题 。 

O 实际 环境 下 采集 到 的 图 像 质量 可 能 很 差 。 其 原因 包括 运动 模糊 、 光 线 干扰 、 
天 气 条 件 影 响 等 。 

O 由 于 图 像 通常 在 运动 平台 上 获取 ， 拍 摄 视角 可 能 变化 很 大 ， 为 识别 增加 
困难 。 

O 实际 用 于 识别 的 图 像 往往 是 经 检测 得 到 的 结果 。 检 测 结果 通常 含有 噪声 
(如 不 期 望 的 背景 部 分 或 者 遮挡 等 ) ， 这 些 噪声 对 识别 非常 不 利 。 

然而 ， 现 在 机 器 可 以 学 习 最 新 进展 应 用 于 交通 标志 识别 。 交 通 标志 识别 本 质 上 
可 以 归结 为 多 类 分 类 的 模式 识别 问题 。 目 前 比较 流行 的 分 类 方法 主要 还 限于 监督 式 
的 支持 向 量 机 、Adaboost 等 。 近 年 来 ， 机 器 学 习 领 域 已 经 涌现 出 很 多 解决 这 类 问题 
的 不 同方 法 ， 如 半 监 督学 习 、 弱 监督 学 习 、 转 移 学 习 、 深 度 网 络 和 稀 玖 表达 等 ， 给 
解决 交通 标志 有 牌 的 检测 与 识别 问题 做 出 了 突破 性 的 贡献 。 

基于 视频 图 像 的 目标 识别 技术 广泛 应 用 于 社会 生产 、 生 活 的 各 个 方面 。 在 智能 
交通 系统 中 ， 图 像 目标 快速 识别 技术 的 运用 有 助 于 观测 交通 流量 、 发 现 突 发 事故 、 
监控 路 面 状况 、 跟 踪 後 事 车 辆 ， 提 高 交通 管理 的 自动 化 水 平和 集约 程度 ， 缩 短 系统 
反应 时 间 ; 在 军事 应 用 领域 ,图 像 目 标 快速 识别 技术 应 用 于 导弹 、 飞 机 、 舰 艇 等 多 
种 重要 军事 运动 目标 的 监视 、 检 测 和 跟踪 ， 图 像 目标 快速 识别 与 跟踪 技术 更 是 精确 
制导 武器 导 引 头 的 关键 内 容 。 在 安全 监控 领域 ,图 像 日 标 快速 识别 技术 广泛 应 用 于 
安防 监控 系统 ， 在 大 型 公共 场所 、 银 行 金融 机 构 和 机 场 车 站 码头 等 人 流 密 集 场所 弥 
补 了 安全 保卫 力量 的 不 足 ， 对 预防 犯罪 、 阻 止 犯罪 具有 明显 的 作用 。 
智能 视频 技术 可 以 在 很 多 地 方 得 到 应 用 。 比 如 : 
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O 高 级 视频 移动 侦 测 : 在 复杂 的 天 气 环境 中 〈 如 雨 雪 、 大 筋 、 大 风 等 ) 精确 
地 侦 测 和 识别 单个 物体 或 多 个 物体 的 运动 情况 ， 包 括 运 动 方向 、 运 动 特征 等 。 

O 物体 追踪 : 侦 测 到 移动 物体 之 后 ， 根 据 物 体 的 运动 情况 ， 自 动 发 送 PTZ 控 
制 指令 ， 使 摄像 机 能 够 自动 跟踪 物体 ; 在 物体 超出 该 摄像 机 监控 范围 之 后 ， 自 动 通 
知 物体 所 在 区 域 的 摄像 机 继续 进行 追踪 。 

口 人 物 面部 识别 : 自动 识别 人 物 的 脸 部 特征 ， 并 通过 与 数据 库 档 案 进 行 比较 来 
识别 或 验证 人 物 的 身份 。 此 类 应 用 又 可 以 细 分 为 “合作 型 ”和 “ 非 合作 型 ”两 大 
类 。“ 合 作 型 ”应 用 需要 被 监控 者 在 摄像 机 前 停留 一 段 时 间 ， 通 常 与 门禁 系统 配合 
使 用 。“ 非 合作 型 ” 则 可 以 在 人 群 中 识别 出 特定 的 个 体 ， 此 类 应 用 可 以 在 机 场 、 火 
车 站 、 体 育 场馆 等 安防 应 用 场景 中 发 挥 很 大 的 作用 。 

口 车 辆 识别 : 识别 车 辆 的 形状 、 颜 色 、 车 牌号 码 等 特征 ， 并 反馈 给 监控 者 。 此 
类 应 用 可 以 用 在 被 盗 车 辆 追踪 等 场景 

口 非法 滞留 : 当 一 个 物体 〈 如 箱子 、 包 囊 、 车 辆 、 人 物 等 ) 在 敏感 区 域 停留 
的 时 间 过 长 ， 或 超过 了 预定 义 的 时 间 长 度 就 产生 警报 。 典 型 应 用 场景 包括 机 场 、 火 
车 站 、 地 铁 站 等 。 

口 交通 流量 控制 : 用 于 在 公路 上 监视 交通 情况 ,例如 统计 通过 的 车 数 、 平 均 车 
速 、 是 否 有 非法 停靠 、 是 否 有 故障 车 辆 等 。 

图 像 目 标 快速 识别 技术 不 仅 是 智能 视频 监控 系统 的 基础 和 核心 ， 在 工业 制造 领 
域 也 有 着 重要 的 应 用 。 基 于 图 像 目 标 快 速 识别 技术 的 工业 切割 、 焊 接 机 器 人 以 及 核 
环境 下 的 维修 机 融 人 等 ， 正 在 相关 领域 发 挥 着 越 来 越 重要 的 作用 。 例 如 : 服务 于 高 
水 平 运动 员 的 计算 机 辅助 训练 系统 ， 要 从 序列 图 像 数 据 中 获取 人 体 运动 参数 ， 其 中 
的 关键 技术 正 是 图 像 目 标 快速 识别 与 三 维 运动 分 析 技 术 。 


1.2.3 ”视频 图 像 处 理 在 智能 驾驶 领域 的 关键 技术 


随 着 现代 科学 技术 的 发 展 ， 特 别 是 图 像 处 理 技 术 、 计 算 机 视觉 技术 、 机 噩 学 习 
技术 的 长 足 进 步 与 系统 工程 思想 的 深入 ， 人 们 在 对 这 些 技术 进行 集成 的 基础 上 提出 
了 许多 新 的 交通 标志 检测 与 识别 方法 ,使 得 交通 标志 检测 与 识别 的 研究 越 来 越 趋向 
于 实际 应 用 。 而 如 何 提高 在 复杂 的 真实 场景 中 交通 标志 的 定位 准确 率 和 分 类 准确 
率 ， 如 何 提高 检测 分 割 、 特 征 提取 、 分 类 算法 的 处 理 速 度 ， 如 何 使 得 所 采用 的 技术 
以 及 开发 的 系统 具有 广泛 的 适用 性 与 实际 使 用 价值 等 ， 成 为 许多 交通 标志 识别 研究 
领域 的 相关 学 者 与 机 构 急需 解决 的 共性 问题 。 

图 像 预 处 理 指 的 是 通过 算法 突出 令 人 感 兴趣 的 信息 ， 削 弱 或 去 除 不 必要 的 干 
扰 ， 使 处 理 后 的 图 像 更 能 辅助 后 续 算法 的 实现 。 在 模式 识别 的 领域 中 ， 需 根据 不 同 
目标 的 特征 ， 应 用 适当 的 预 处 理 方法 。 

以 提高 系统 的 鲁 棒 性 、 实 时 性 、 特 征 针对 性 为 目标 ， 图 像 预 处 理 流程 包括 ， 灰 
度 化 、 图 像 灰 度 增强 、 滤 波 去 品 和 二 值 化。 结合 加 权 平 均 法 和 彩色 通道 提取 法 ， 对 
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图 像 进行 灰 度 化 ， 增 强 了 车 道 线 边界 特征 ; 利用 基于 直方 图 均衡 化 的 方法 扩展 了 灰 
度 级 的 动态 范围 ， 使 系统 在 光照 变化 的 条 件 下 表现 出 更 好 的 适应 性 ; 应 用 中 值 滤波 
的 方法 对 图 像 进行 滤波 去 噪 处 理 ， 改 善 了 图 像 质量 ; 在 二 值 化 的 过 程 中 ， 对 比 了 传 
统 最 优 国 值 法 和 最 大 类 间 方 差 法 ， 最 终 使 用 后 者 获取 了 车道 二 值 图 像 。 

大 部 分 机 需 视 觉 传感器 采集 到 的 原始 道路 图 像 均 为 彩色 图 像 。 在 彩色 图 像 内 ， 
任意 颜色 都 可 以 通过 红 (Red) 、 蓝 (Green), 2 (Blue) 这 三 种 基本 颜色 的 不 同 
配 比 得 到 ， 所 以 用 RGB 模型 描述 彩色 图 像 是 最 常用 的 。 在 此 模型 中 , 当 B=G=R 
时 ， 则 实现 了 彩色 图 像 的 灰 度 化 ， 其 值 被 称 为 灰 度 值 。 在 灰 度 图 像 中 ， 只 需 为 每 个 
像素 分 配 一 个 字 节 便 可 存放 此 灰 度 值 。 定 义 黑色 的 灰 度 值 为 0, 白色 为 255， 把 黑 
到 白 之 间 的 灰 度 平均 划分 为 256 个 等 级 。 即 便 在 灰 度 化 图 像 的 过 程 中 ， 会 丢失 一 些 
信息 ， 但 对 彩色 图 像 的 三 个 分 量 进行 处 理 ， 会 较 大 程度 地 拖 慢 系统 的 运算 速度 。 从 
系统 整体 分 析 ， 把 三 个 分 量 并 作 一 个 进行 处 理 ， 是 必要 且 可 行 的 。 彩 色 图 像 进行 灰 
度 化 的 五 种 常用 方法 分 别 是 : 分 量 法 、 最 大 值 法 、 平 均值 法 、 加 权 平 均 法 和 彩色 通 
道 提取 法 。 

一 般 情 况 下 ， 只 经 过 灰 度 处 理 的 图 像 往 往 存 在 着 一 定 程 度 的 噪点 干 拓 。 此 类 干 
扰 会 使 图 像 变 得 模糊 ， 降 低 图 像 质 量 ， 使 检测 算法 难以 准确 实现 。 滤 波 去 噪 是 图 像 
预 处 理 过 程 中 的 稼 用 方法 。 机 器 视觉 中 的 噪点 信号 主要 可 分 为 加 性 噪点 、 乘 性 噪点 
及 量化 噪点 。 此 方法 对 图 像 中 的 噪点 信号 有 较 好 的 过 滤 效 果 ， 可 为 检测 算法 提供 更 
易 识别 的 资源 ， 为 系统 整体 性 能 的 实现 提供 支持 。 

检测 交通 标志 最 党 用 的 方法 包括 颜色 分 割 技术 、 特 定形 状 检测 技术 ， 以 及 利用 
纹理 、 局 部 特征 等 设计 分 类 需 等 方法 。 在 颜色 分 割 方面 ， 颜 色 空 间 的 选择 非常 重 
要 。 最 普通 的 颜色 特征 即 为 RGB 特征 ,但 这 类 方法 对 光照 变化 非常 敏感 。 在 分 割 
技术 方面 ， 常 用 的 交通 标志 检测 方法 通常 需要 设计 许多 阔 值 ， 而 这 些 阔 值 的 确定 在 
实际 中 非常 困难 的 。 

视频 图 像 处 理 过 程 中 会 涉及 对 视频 图 像 数 据 的 采集 、 传 输 、 处 理 、 显 示 和 回放 
等 过 程 ， 这 些 过 程 共同 形成 了 一 个 系统 的 整体 周期 ， 可 以 连续 性 地 运作 。 在 视频 图 
像 处 理 技术 范围 内 最 主要 的 技术 就 是 图 像 压 缩 技术 和 视频 图 像 处 理 技术 等 。 目 前 ， 
在 智能 营 驶 领域 主流 的 视频 图 像 处 理 技术 包括 视频 透 筋 增 透 技术 和 智能 分 析 处 理 。 

视频 透 雾 增 透 技术 ， 一 般 指 将 因 雾 和 水 汽 灰 侍 等 导致 腻 鹏 不 清 的 图 像 变 得 清 
晰 ， 强 调 图 像 当 中 某 些 令 人 感 兴趣 的 特征 ， 抑 制 不 感 兴趣 的 特征 ， 使 得 图 像 的 质量 
改善 ， 信 息 量 更 加 丰富 。 如 图 1-1 所 示 (WL), SERA RIN 6, IA 
光 等 恶劣 条 件 导致 视频 图 像 的 图 像 对 比 度 差 、 分 辨 率 低 、 图 像 模糊 、 特 征 无 法 辨识 
等 ， 增 透 处 理 后 的 图 像 可 为 图 像 的 下 一 步 应 用 提供 良好 的 条 件 。 这 可 以 为 我 们 的 无 
人 罩 驶 智能 车 在 雾 狂 天气 以 及 雨 雪 、 强 光 、 暗 光 等 恶劣 天 气 下 提供 良好 的 解决 途 
径 ， 获 得 更 加 清晰 、 易 识别 的 视频 图 像 。 
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图 1-1 恶劣 天 气 下 视频 图 像 处 理 对 比 图 


智能 视频 分 析 技 术 是 解决 视频 监控 领域 大 数据 筛选 、 检 索 技 术 问 题 的 重要 手 
段 。 目 前 国内 智能 分 析 技 术 可 以 分 为 两 大 类 : 一 类 是 通过 前 景 提取 等 方法 对 画面 中 
的 物体 的 移动 进行 检测 ， 通 过 设 定 规则 来 区 分 不 同 的 行为 ， 如 拌 线 、 物 品 遗 留 、 周 
界 等 ; 另 一 类 是 利用 模式 识别 技术 对 画面 中 所 需要 观察 的 物体 进行 有 针对 性 的 建 
模 ， 从 而 达到 对 视频 中 的 特定 物体 进行 检测 及 相关 应 用 ， 如 应 用 在 无 人 驾驶 智能 车 
上 的 车 辆 检测 、 人 流 统计 、 人 脸 检测 等 技术 。 


13 ” 异 构 平台 与 GPU 架构 


当前 ， 高 性 能 计算 机 体系 结构 正 处 于 变革 期 ， 各 种 新 型 体系 结构 不 断 涌现 。 在 
众多 异 构 混 合 平台 中 ， 基 于 CPU/GPU 异 构 协 同 的 计算 平台 有 很 大 的 发 展 潜力 。 由 
于 GPU 具有 强劲 的 计算 能 力 、 高 性 能 /价格 比 和 高 性 能 /能 耗 比 ， 因 此 在 当今 追求 
绿色 高 能 计算 的 时 代 ， 其 计算 优势 受到 越 来 越 多 的 关注 。 在 协同 并 行 计 算 时 ，CPU 
和 GPU 应 各 取 所 长 ， 快 速 、 高 效 协同 地 完成 高 性 能 计算 任务 。 除 管理 CPU 计算 任 
务 外 ，CPU 也 应 当 承担 一 部 分 科学 计算 任务 。 

针对 CPU/GPU 异 构 混合 体系 结构 的 高 性 能 计算 平台 ， 研 究 相 应 的 协同 并 行 计 
算 技 术 ， 设 计 并 实现 大 型 科学 及 工程 计算 问题 的 新 型 并 行 算 法 ， 具 有 重大 的 理论 和 
实际 意义 。 
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1.3.1 概述 


由 于 材料 、 制 造 工艺 、 能 耗 和 散热 的 限制 ,单纯 依靠 提升 时 钟 频 率 来 提高 处 理 
需 的 性 能 已 经 变 得 非常 困难 。 在 这 种 情况 下 ， 芯 片 广 商 开始 在 单 块 芯片 上 集成 更 多 
的 处 理 器 核心 ， 通 过 开发 线程 级 和 数据 级 并 行 来 提高 处 理 器 性 能 ， 将 处 理 器 体系 结 
构 的 发 展 推 向 了 多 核 和 众 核 时 代 。 众 核 处 理 器 以 其 更 强 的 处 理 能 力 和 更 高 的 存储 于 
宽 受 到 了 越 来 越 多 三 家 和 应 用 开发 人 员 的 青睐 。 主 流 芯 片 厂商 相继 推出 了 自己 的 众 
核 架 构 处 理 器 (如 NVIDIA 的 Kepler, Maxwell, Pascal 架构 的 GPU, AMD 的 Cy- 
press 和 GNC 架构 的 GPU, VA Intel 的 MIC 架构 )。 通 过 采用 多 核 处 理 器 和 众 核 处 
理 器 构成 异 构 计算 系统 ， 使 用 众 核 处 理 器 实现 对 应 用 程序 的 加 速成 为 提高 程序 性 能 
的 主要 模式 ， 异 构 计算 已 经 成 为 当前 和 未 来 计算 的 主流 。 

现代 图 形 处 理 吉 (Graphics Processing Unit, GPU) 是 采用 面向 天 吐 量 的 统一 架 
构 单 元 设计 的 大 规模 并 行 处 理 器 ， 具 有 较 高 的 计算 能 力 和 存储 带宽 ， 更 加 适合 当前 
大 规模 数据 并 行 处 理 的 需求 。 近 年 来 ， 通 用 计算 图 形 处 理 需 (General - Purpose 
computing on Graphic Processing Units, GPGPU) 利用 GPU 完成 通用 计算 的 研究 逐步 
活跃 起 来 。GPU 在 通用 计算 领域 得 到 了 越 来 越 广泛 的 应 用 。 在 2016 年 全 球 超级 计 
算 机 TOP500 HETES E, “神威 太湖 之 光 ” 暗 联 冠军 ， 是 世界 上 运行 速度 最 快 的 
超级 计算 机 。 在 应 用 领域 ，GPGPU 不 仅 在 卫星 数据 处 理 、 基 因 工 程 、 海 洋 大 气 预 
报 、 分 子 动力 学 模拟 等 传统 科学 领域 得 到 了 越 来 越 广泛 的 应 用 ， 而 且 在 多 媒体 、 图 
形 图 像 处 理 、 游 戏 等 非 传统 领域 也 受到 了 越 来 越 高 的 重视 。 

GPGPU 计算 通常 采用 CPU + GPU 异 构 模 式 : CPU 负责 执行 复杂 逮 辑 处 理 和 事 
FEM, GPU 负责 计算 密集 型 的 大 规模 数据 并 行 计算 ， 其 核心 思想 是 利用 GPU 的 
强大 处 理 能 力 和 高 带宽 弥补 CPU 性 能 方面 的 不 足 。GPCPU 编程 的 核心 就 是 应 用 程 
序 的 CPU 实现 和 优化 ， 并 呈现 出 了 “实现 容易 ， 优 化 难 ” 的 特点 。 


1.3.2 GPU 体系 架构 


GPU 英文 全 称 为 Graphic Processing Unit， 中 文 翻译 为 “图 形 处 理 需 ” o GPU 从 
诞生 之 日 起 就 以 超越 摩尔 定律 的 速度 发 展 ， 运 算 能 力 不 断 提升 。 业 界 很 多 研究 者 注 
意 到 CPU 计算 能 力 的 潜力 ， 于 2003 年 SIGGRAPH 大 会 上 提出 了 GPGPU 的 概念 。 
GPU 逐渐 从 由 否 干 专用 的 固定 功能 单元 (Fixed Function Unit) 组 成 的 专用 并 行 处 
理 器 向 以 通用 计算 资源 为 主 、 固 定 功能 单元 为 辅 的 架构 转变 。 

CPU 与 GPU 的 主要 区 别 在 于 存在 于 片 内 的 缓存 体系 和 数字 逻辑 运算 单元 的 结 
构 差异 。CPU 虽然 有 多 核 ， 但 总 数 没有 超过 两 位 数 ， 每 个 核 都 有 足够 大 的 缓存 容 
量 和 足够 多 的 数字 和 逮 辑 运算 单元 ， 并 辅助 有 很 多 加 速 分 支 判 断 更 复杂 的 逻辑 判断 
的 硬件 ; GPU 的 核 数 远 超 CPU ， 被 称 为 众 核 (NVIDIA Fermi 有 512 个 核 ) 。 每 个 核 
拥有 的 缓存 容量 相对 小 ， 数 字 逻 辑 运算 单元 也 少 而 简单 (GPU 初始 时 在 浮 点 计算 
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上 一 直 弱 于 CPU) 。 从 结果 上 导致 CPU 擅长 处 理 具 有 复杂 计算 步骤 和 复杂 数据 依赖 
的 计算 任务 ， 如 分 布 式 计算 、 数 据 压 缩 、 人 工 智 能 、 物 理 模拟 ， 以 及 其 他 很 多 计算 
任务 等 。 

随 着 CPU 可 编程 性 的 不 断 增 强 ， 特 别 是 CUDA 等 编程 环境 的 出 现 ， 使 CPU 通 
用 计算 编程 的 复杂 性 大 幅度 降低 。 由 于 可 编程 性 、 功 能 、 性 能 不 断 提 升 和 完善 ， 
GPU 已 演化 为 一 个 新 型 可 编程 高 性 能 并 行 计算 资源 。 全 面 开启 GPU 面向 通用 计算 
的 新 时 代 已 到 来 。 

目前 NVIDIA 最 新 的 CUDA 图 形 计算 架构 主要 是 Fermi 架构 、Kepler 架构 、 
Maxwell 架构 以 及 最 新 的 Pascal 架构 。 

1. Fermi 架构 

基于 GPU 的 第 一 代 Fermi 架构 拥有 30 亿 个 晶体 管 ，512 个 CUDA 核 。 一 个 
CUDA 核 在 一 个 时 钟 周期 内 执行 一 个 线程 (或 kernel) 中 的 一 个 浮 点 数 或 整数 指 
令 。512 个 CUDA 核 是 按照 16 个 含有 32 个 核 的 (Scalar Processor, RLAR, 
也 叫 SM， 标 量 处 理 器 ) 进行 组 织 的 。GPU 拥有 6 个 64bit 的 显存 分 区 (DRAM), 
因此 支持 384bit 的 显存 接口 。 最 大 支持 OCB 的 CDDR5 类 型 的 显存 容量 ，GPU 和 
CPU 之 间 通 过 PCI - e 总 线 连接 ， 千 兆 线程 管理 器 负责 将 线程 块 分 发 到 流 式 多 处 理 
器 中 。 

2. Kepler 架构 

完整 Kepler GK110 架构 包括 15 个 SMX 单元 和 6 个 64bit AE HEH AR, BES 
SMX 单元 包含 192 个 单 精度 CUDA 核 64 个 双 精 度 单 元 (DP Unit) 、32 个 特殊 功 
能 单元 (SFU) 和 32 个 加 载 / 存 储 单元 (LD/ST), 4 个 warp 调度 单元 ，8 个 指令 
分 发 单元 。 不 同 的 产品 将 使 用 GK110 不 同 的 配置 。 

3. Maxwell 架构 

Maxwell SM 架构 在 控制 逮 辑 分 区 、 负 和 荷 均 衡 、 时 钟 门 控 粒 度 、 编 译 器 调度 、 
每 时 钟 周期 发 出 指令 条 数 等 方面 的 改进 以 及 其 他 诸多 增强 之 处 让 Maxwell SM (也 
称 “SMM”) 能 够 在 效率 上 远 超 Kepler SMX。 全 新 的 Maxwell SM 架构 能 够 在 
GM107 中 把 SM 的 数量 增 至 5 个 (GK107 中 仅 有 两 个 ) ， 而 芯片 面积 仅 增加 25% 。 
Maxwell GPU Tegra X1 包含 两 个 SM。 每 个 SM 包括 基本 计算 核 ， 该 计算 核 称 为 CU- 
DA 核心 、 纹 理 单 元 变形 引擎 。Kerpler GPU 中 的 每 个 SM (PRN SMX) 体系 结构 有 
192 CUDA 核 ， 而 每 个 Maxwell SM ( 称 为 SMM) 包括 128 个 CUDA 核 。 但 是 ， 与 
Kepler CUDA 核心 相 比 ，Maxwell CUDA 的 核心 是 一 个 重大 升级 ， 并 且 每 个 Maxwell 
核 的 性 能 高 于 Kepler 核 。 

4. Pascal 架构 

革新 性 的 NVIDIA Pascal 架构 是 特别 打造 的 计算 机 引擎 ， 帮 助 计算 机 学 习 、 观 
察 和 模仿 我 们 这 个 有 着 密集 计算 需求 的 世界 。 从 原材料 硅 到 成 品 软件 ，Pascal 的 各 
个 层面 都 采用 创新 方法 精工 制作 。 
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Pascal 架构 有 五 大 技术 突破 。NVIDIA Pascal 架构 建立 在 五 大 技术 突破 之 上 ， 
启用 了 全 新 的 计算 平台 ， 打 破 了 从 书桌 端 到 数据 中 心 的 传统 思维 。 

口 16nm FINFET 工艺 实现 卓越 能 效 

Pascal GPU 内 含 1500 亿 个 由 先进 的 16nm FINFET 制造 工艺 打造 的 晶体 管 ， 是 
当今 市 场 上 极其 巨大 的 FINFET 芯片 。 它 的 设计 能 带 来 极其 快速 的 性 能 和 优异 的 能 
效 ， 可 承受 对 计算 的 需求 近乎 无 限 的 工作 负载 。 

O Pascal 架构 带 来 巨大 的 性 能 飞跃 

Pascal 是 非常 强大 的 GPU 内 置 计算 架构 。 它 让 普通 计算 机 变 成 性 能 强大 的 超 
级 计算 机 。 在 深度 学 习 方 面 ， 与 当前 这 代 GPU 架构 相 比 ， 由 Pascal 支持 的 系统 的 
神经 网 络 训练 性 能 提高 了 10 倍 。 

口 使 用 NVIDIA NVLINK 实现 更 大 程度 的 应 用 程序 可 扩展 性 

Pascal 是 个 集成 了 革新 性 的 NVIDIA NVLINK 高 速 互 联 的 架构 。 该 技术 专 为 扩 
REZA GPU 的 应 用 程序 而 设计 ， 与 目前 一 流 的 解决 方案 相 比 ， 其 互联 带宽 加 速 
效果 提高 了 4 倍 。 

口 适用 于 大 数据 工作 负载 的 采用 HBM2 的 CoWoS 技术 

Pascal 架构 将 处 理 器 和 数据 集成 在 同一 个 程序 包 内 ， 以 实现 更 高 的 计算 效率 。 
采用 HBM2 的 唱 圆 基底 芯片 (CoWoS) 技术 运用 内 存 设 计 的 创新 方法 ， 可 提供 相 
当 于 上 一 代 解 决 方案 的 3 倍 以 上 的 内 存 带宽 性 能 。 

口 新 型 人 工 智 能 (AI) 算法 

Pascal 彻底 采用 全 新 设计 ， 为 深度 学 习 和 其 他 计算 工作 负载 提供 更 好 的 性 能 。 
该 架构 利用 全 新 的 混合 精度 指令 ， 可 为 深度 学 习 提 供 每 秒 超过 20 万 亿 次 浮 点 运算 
的 性 能 峰值 。 

目前 AMD 主要 的 GPU 架构 是 Cypress 架构 和 GCN 架构 。 

1. Cypress 架构 

代号 Cypress 的 AMD HD5000 系列 是 全 球 首 款 支持 DirectX 11 特效 的 CPU, € 
继承 了 R600 架构 高 效 的 VLIW 组 织 形 式 SIMD 结构 流 处 理 器 单元 ， 又 继承 了 
RV770 以 来 的 RBE 后 端 演 染 单元 改进 ， 同 时 结合 TSMC 40nm 工艺 ， 将 性 能 和 能 
完美 匹配 。 但 是 在 光环 的 背后 ， 一 直 隐 藏 着 AMD 的 忧虑 ， 那 就 是 作为 Direct X11 
关键 技术 支撑 的 曲面 细 分 单元 。 

2. GCN 架构 

GCN 架构 是 一 种 全 新 的 消费 类 GPU 设计 方式 。GCN 架构 是 世界 上 第 一 款 
28nm GPU 架构 ， 世 片 内 部 集成 了 43 亿 个 晶体 管 (GPU 的 最 基本 单元 ) ; 而 在 以 
前 ， 大 致 相同 的 空间 只 能 容纳 26 亿 个 晶体 管 。 将 晶体 管 密度 提高 60% 以 上 绝 不 仅 
仅 是 工程 师 们 的 杰作 ， 也 是 世界 上 最 强大 、 最 先进 GPU 的 职责 所 在 。 

GCN 架构 不 仅 拓 宽 了 DirectX 11 游戏 的 范围 ， 而 且 也 是 AMD 专 为 一 般 运 算 打 
造 的 第 一 款 设 计 。AMD 的 28nm GPU 配 有 32 个 计算 单元 (2048 个 流 处 理 器 ) ， 每 
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个 单元 中 包含 一 个 标量 协 处 理 器 ， 能 够 处 理 传统 处 理 器 排斥 的 工作 负载 和 编程 语 
Ao GCN 架构 大 量 运用 了 能 够 识别 GPU 的 编程 语言 ， 例 如 C+ + AMP 和 OpenCL, 
因此 它 才 是 真正 顺应 时 代 潮 流 而 生 的 架构 。 

从 架构 上 看 ，GPU 相当 于 一 个 由 向 量 处 理 右 组 成 微型 超级 计算 机 。GPU 用 于 
通用 计算 存在 以 下 若干 优势 ; 

O 性 能 价格 比 高 。 由 于 GPU 将 绝 大 多 数 晶 体 管用 在 了 计算 单元 而 非 缓 存 和 控 
制 单 元 上 ， 使 得 主流 GPU 的 单 精度 浮 点 处 理 能 力 能 够 达到 同期 CPU 的 10 倍 左右 ， 
而 存储 器 带宽 则 是 CPU 的 5 倍 左右 。GPU 的 价格 也 仅仅 是 CPU 价格 的 2~3 倍 。 

O 能 耗 低 。 目 前 低 、 中 端的 CPU 只 需要 通过 PCI -e 接口 供电 就 足够 了 ， 而 高 
端 GPU 也 只 需要 通过 电源 PIN 接口 提供 200W 左右 的 电力 。 相 对 提供 的 计算 性 能 
而 言 ，GPU 的 能 耗 付出 不 大 。 

口 便携 性 好 。 不 仅 台 式 机 ， 笔 记 本 中 的 GPU 也 支持 通用 计算 。 

口 直接 可 视 化 。GPU 具有 图 形 处 理 和 通用 计算 两 大 属性 ， 通 用 计算 的 结果 可 
以 在 GPU 上 直接 可 视 化 。 随 着 可 视 化 性 能 越 来 越 受到 重视 ， 在 统一 的 GPU 平台 上 
融合 可 视 化 与 通用 计算 具有 重要 的 意义 和 价值 。 


1.3.3 GPU 编程 模型 


CUDA 是 NVIDIA 公司 2007 年 提出 的 支持 其 GPU 进行 通用 计算 的 编程 模型 和 
开发 环境 。 在 该 平台 下 ， 软 件 开发 者 可 以 直接 使 用 高 级 语言 (扩展 的 C 语言 ) 编 
写 在 GPU 上 运行 的 程序 ， 而 不 必 使 用 Direct X 或 者 Open GL 这 些 图 形 API, BEAK 
降低 了 利用 GPU 进行 通用 计算 的 难度 ， 也 提高 了 程序 的 性 能 。 

CUDA 平台 为 程序 开发 者 提供 了 所 有 必要 的 组 件 ， 包 括 编 译 器 (nvec)、 库 也 
数 、 运 行 时 环境 、 显 卡 驱 动 等 。 支 持 多 种 操作 系统 ,包括 Windows, Linux 以 及 
Mac 0S。 此 外 ， 为 了 方便 用 户 的 开发 工作 ， 还 提供 了 包含 很 多 程序 实例 的 SDK 
(Software Development Kit), waiter, VERE A Oras TA, Al 1-2 清晰 地 呈现 了 
CUDA 软件 栈 的 层次 结构 以 及 应 用 程序 调用 关系 。 同 时 此 图 也 说 明了 CUDA 平台 是 
非常 灵活 的 ， 给 用 户 提供 了 更 多 选择 的 机 会 。 应 用 程序 既 可 以 调用 上 层 API (CU- 
DA Library 和 CUDA Runtime) ， 也 可 以 直接 调用 底层 API (CUDA Driver) 。 后 者 显 
然 要 更 快 一 些 ， 但 难度 也 会 大 一 些 。 

一 个 完整 的 CUDA 程序 分 为 两 部 分 : 主机 代码 和 设备 代码 。 其 中 前 者 在 主机 
(通常 指 CPU) 上 运行 ， 后 者 在 设备 (CPU 或 其 他 类 似 的 协 处 理 器 ) 上 运行 (前 
提 是 系统 中 存在 支持 CUDA 的 GPU) 。 此 外 ， 对 于 没有 支持 CUDA 的 GPU 的 用 户 ， 
可 以 选择 模拟 模式 来 运行 CUDA 程序 ， 此 时 系统 将 会 用 主机 来 模拟 设备 的 运行 ， 
但 速度 很 慢 。 

除了 方便 性 和 灵活 性 之 外 ，CUDA 还 具有 高 度 的 抽象 性 和 可 扩展 性 。 抽 象 性 体 
现在 三 个 方面 : 线程 层次 结构 、 共 享 存储 器 和 同步 路 障 。 这 种 机 制 既 提供 了 细 粒 度 
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应 用 程序 
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图 1-2 CUDA 软件 栈 





(fine - grained) 的 数据 级 并 行 和 线程 级 并 行 ， 也 提供 了 粗 粒 度 (coarse - grained) 
的 任务 级 并 行 。 一 个 可 执行 的 CUDA 程序 可 以 在 具有 任何 数量 处 理 器 核 的 设备 上 
和 运行， 这 样 用 户 在 进行 任务 划分 时 就 不 必 关 心底 层 硬件 平台 实际 所 拥有 的 物理 处 理 
器 的 数量 。 而 且 当 底层 的 硬件 更 新 升级 后 ， 原 有 的 程序 无 须 做 任何 改变 就 可 以 获得 
好 的 性 能 收益 。 这 就 体现 了 CUDA 良好 的 可 扩展 性 。 

CUDA 架构 的 存储 器 类 型 包括 全 局 内 存 、 共 享 内 存 、 本 地 内 存 、 和 量 内 存 、 纹 
理 内 存 和 寄存 器 等 。 其 中 全 局 内 存 采用 通用 的 访问 机 制 ， 空 间 大 ， 所 有 线程 都 可 对 
其 进行 读 写 操作 ; 共享 内 存 是 片上 内 存 ， 被 同一 个 流 多 处 理 需 上 的 线程 所 共享 ， 访 
问 其 上 的 数据 只 需要 4 个 时 钟 周期 ,避免 了 线程 频繁 访问 全 局 内 存 造 成 的 时 间 损 
R; 和 常量 内 存 和 纹理 内 存 均 采 用 了 cache 来 提高 访问 速度 。 

OpenCL (Open Computing Language， 开 放 计 算 语言 ) 是 一 个 为 异 构 平 台 编 写 程 
序 的 框架 ， 此 异 构 平台 可 由 CPU, GPU 或 其 他 类 型 的 处 理 器 组 成 。OpenCL 由 用 于 
编写 kernel (在 OpenCL 设备 上 运行 的 函数 ) 的 语言 (基于 C99) 和 一 组 用 于 定义 
并 控制 平台 的 API 组 成 。 

OpenCL 是 由 苹果 公司 于 2008 年 提出 的 一 个 适用 于 异 构 计 算 平 台 的 统一 的 并 行 
编程 模型 ， 也 是 一 种 工业 标准 和 规范 。 一 经 提出 就 得 到 了 众多 大 公司 的 支持 ,发 展 
非常 迅速 。 

众所周知 ， 目 前 的 计算 平台 种 类 繁多 ， 既 有 通用 的 多 核 CPU， 又 有 专用 的 拥 
有 强大 计算 能 力 的 众 核 CPU， 如 IBM Cell 和 基于 ARM 架构 的 数字 信和 号 处 理 器 
(DSP) 芯片 。 由 于 这 些 硬件 平台 的 特性 和 架构 差别 很 大 ， 要 想 编 写 一 个 能 在 所 有 
平台 上 高 效 运行 的 程序 几乎 是 不 可 能 的 。 因 此 ， 程 序 员 不 得 不 针对 特定 的 硬件 平台 
编写 一 个 新 的 版 本 的 程序 ， 这 无 疑 加 重 了 他 们 的 负担 。OpenCL 的 出 现 将 会 很 好 地 
解决 这 种 因 底 层 硬 件 平台 的 差异 性 所 带 来 的 软件 可 移植 性 的 问题 。 今 后 ， 只 要 程序 
员 编 写 的 程序 遵循 OpenCL 标准 ， 就 可 以 不 加 修改 地 在 那些 支持 该 标准 的 硬件 平台 
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上 高 效 运行 。 

OpenCL 是 一 个 在 异 构 平 台 进 行 并 行程 序 开发 的 开放 工业 标准 ， 它 将 CPU, 
GPU 以 及 其 他 各 类 计算 设备 组 织 成 一 个 统一 的 计算 平台 ， 开 发 者 以 统一 而 有 效 的 
方式 使 用 这 些 计 算 资 源 。OpenCL 框架 可 划分 为 OpenCL 平台 API, OpenCL 运行 时 
API 和 OpenCL 编程 语言 。 支 持 的 应 用 非常 广泛 ， 从 内 入 式 应 用 、 消 费 软件 到 高 性 
能 计算 解决 方案 都 能 使 用 它 进行 开发 。OpenCL 的 设计 初衷 是 为 帮助 程序 员 开 发 出 
可 移植 的 、 能 够 高 效 利用 异 构 系统 中 所 有 的 硬件 资源 的 程序 。 基 于 CPU - GPU 的 
异 构 模 式 只 是 众多 异 构 结 构 中 的 一 种 ， 也 是 目前 被 广泛 使 用 的 一 种 。 图 1-3 形象 地 
说 明了 OpenCL 是 专 为 异 构 计 算 而 服务 的 。 
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多 处 理 器 编程 图 像 APls 和 
例如 OpenMP 阴影 语言 





OpenCL- 开 放 计 算 机 语言 
开放 的 、 免 版 税 的 标准 ， 用 于 异 构 并 行 计算 CPU、 
GPU 和 其 他 处 理 器 的 便携 式 并 行 编程 




















到 1-3 OpenCL 适用 于 异 构 平台 








1.4 GPU 性 能 加 速 优化 方法 


GPU 程序 优化 是 性 能 优化 中 的 重要 内 容 。 虽 然 CPU 程序 的 优化 和 具体 的 硬件 
平台 密切 相关 ， 但 从 总 体 上 看 ， 无 论 采 用 何 种 硬件 平台 ， 提 高 GPU 程序 性 能 的 主 
要 途径 都 可 分 为 三 个 方面 : 

口 片 外 访 存 带宽 的 利用 率 。 

口 计 算 资源 的 有 效 利用 率 。 

口 数 据 本 地 化 。 
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虽然 ， 由 于 GPU 硬件 架构 的 差异 ，GPU 程序 在 优化 方法 和 优化 策略 的 选择 上 
也 存在 差异 性 。 但 无 论 采 用 何 种 GPU 架构 ， 其 优化 的 方向 和 途径 却 都 相似 ， 这 也 
为 GPU 程序 的 性 能 可 移植 提供 了 可 能 。 


1.4.1 访 存 优化 


GPU 程序 优化 的 本 质 是 实现 从 算法 特性 到 底层 硬件 架构 特征 的 有 效 映 射 。 全 
局 内 存 容量 大 ， 但 访 存 带 宽 相 对 较 低 ， 具 有 较 长 的 访 存 延迟 ， 是 限制 CPU 程序 性 
能 的 主要 因素 之 一 。 充 分 考虑 CPU 访 存 特点 ， 提 高 片 外 访 存 带 宽 利 用 率 ， 降 低 访 
存 延 迟 ， 是 提高 GPU 程序 性 能 的 关键 。 这 就 需要 我 们 在 GPU 程序 优化 过 程 中 ， 不 
仅 要 考虑 算法 特性 ， 而 且 还 要 考虑 底层 硬件 架构 的 特征 ， 最 终 还 需要 完成 这 两 种 特 
征 的 高 效 映射 。 

1. CPU 与 GPU 之 间 的 传输 优化 

对 于 GPU 编程 来 说 ,我 们 首先 要 考虑 的 是 CPU - GPU 之 间 的 传输 ， 而 在 CU- 
DA 中 提供 了 一 种 叫 作 zero - copy 的 方式 ， 通 过 线程 与 底层 硬件 的 直接 映射 ， 即 可 
以 减少 数据 传输 的 消耗 。 

2. global memory 非 合 并 访问 

合并 访问 是 指 连续 的 线程 访问 连续 的 数据 。 实 际 算法 在 访问 数据 的 时 候 ， 往 往 
会 出 现 连续 的 线程 访问 不 连续 的 数据 地 址 ， 由 于 线程 寻 址 而 导致 不 必要 的 时 间 损 
耗 。 所 以 为 了 提高 访问 全 局 存储 器 的 效率 ,我们 常常 通过 共享 内 存 (shared memo- 
ry) 解决 这 类 问题 。 

3. 共享 内 存 (shared memory) 与 存储 体 冲 突 (bank conflict) 

share memory 是 GPU 片 内 缓存 存储 器 。 它 是 一 块 可 以 被 同一 block 中 的 所 有 线 
程 访 问 的 可 读 存 储 右 。 共 享 内 存 自 身 不 存在 合并 访问 的 问题 ， 往 往 用 于 处 理 非 合 并 
访问 的 问题 。Bank conflict 是 指 一 个 warp 内 的 多 个 线程 同时 访问 同一 个 bank 时 ， 
将 导致 线程 访问 shared memory 的 串 行 化 。 即 当 一 个 线程 访问 shared memory 时 ， 
warp 中 的 其 他 线程 将 会 排队 等 候 ， 直 到 bank 请 求 被 满足 。 因 此 ，bank conflict 应 该 
尽量 避免 。 

4. 全 局 内 存 通道 冲突 (channels conflict) 

channels conflict 与 bank conflict 类 似 ， 是 由 于 warp 发 起 的 访 存 请 求 所 造成 的 全 
局 内 存 通 道 冲突 ， 即 grip 内 开启 的 线程 没有 均衡 地 分 配 到 全 局 内 存 的 channel， 导 
致 分 配 的 channel 数量 不 多 ， 致 使 其 他 的 channel 处 于 空闲 状态 。 线 程 同 时 对 少量 
的 channel 访问 造成 在 单个 channel 中 串 行 化 的 问题 。 

5. 向 量化 

向 量化 主要 指 一 条 向 量 指令 操作 向 量 寄存 器 中 的 多 个 元 素 。 向 量化 访 存 的 主要 
作用 有 两 个 : 充分 利用 访 存 带 宽 利 用 率 ; 可 以 进行 向 量 计算 ， 开 发 ILP (指令 级 并 
行 )。 
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1.4.2 计算 优化 


GPU 拥有 大 量 的 计算 单元 ， 具 有 强大 的 计算 能 力 。 充 分 考虑 CPU 架构 特点 和 
调度 策略 ， 以 有 效 地 利用 这 些 计算 单元 ， 避 人 免 计 算 单元 的 闲置 ， 是 提高 GPU 程序 
性 能 的 主要 途径 。 

GPU 并 行 计 算 架 构 常 被 称 为 众 核 架构 (Many - core Architecture ) 。 与 传统 的 
CPU 计算 架构 相 比 ，GPU 并 行 计 算 架 构 在 硬件 结构 、 计 算 方式 、 成 本 能 耗 等 诸多 
方面 有 显著 不 同 。 在 硬件 结构 方面 ，CPU 硬件 上 有 很 大 一 部 分 晶体 管用 于 复杂 的 
控制 单元 和 缓存 ， 而 CPU 硬件 的 绝 大 多 数 晶 体 管 都 用 于 执行 单元 。 在 计算 方式 方 
m, CPU 擅长 复杂 的 指令 调度 、 循 环 、 分 文 、 逻 辑 判 断 等 计算 任务 ， 其 并 行 优势 
是 程序 执行 层面 的 ， 程 序 逻 辑 的 复杂 度 限 定 了 程序 执行 的 指令 并 行 性 。GPU 擅长 
高 度 并 行 的 数值 计算 ， 可 以 容纳 上 千 个 没有 逻辑 关系 的 数值 计算 线程 ， 其 优势 是 无 
逻辑 关系 数据 的 并 行 计算 。 在 成 本 能 耗 方面 ， 当 今 的 多 核 CPU 的 能 耗 越 来 越 高 ， 
计算 成 本 大 大 增长 ， 而 GPU 的 能 耗 相 对 较 低 ， 性 价 比 高 ， 更 加 符合 当前 绿色 计算 
的 理念 。 图 1-4 ( 见 彩 插 ) 所 示 为 CPU 与 CPU 芯片 逻辑 架构 对 比 。 由 图 1-4 可 以 
清晰 看 出 ，GPU 相 较 于 CPU 拥有 更 强大 的 计算 能 力 。 
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虽然 GPU 的 时 钟 频率 不 及 CPU 高 ,但 GPU 的 性 能 与 芯片 面积 之 比 ， 性 能 与 能 
耗 之 比 要 比 CPU 高 ， 尤 其 在 执行 并 行 计算 任务 时 ， 其 计算 性 能 远 超 CPU. 

对 于 AMD All NVIDIA 的 两 个 GPU 平台 ,它们 在 硬件 设计 上 最 大 的 不 同 是 基本 
执行 单元 的 设计 。 在 AMD GPU 平台 中 ，SC 采用 了 向 量化 的 设计 方式 ,每 个 SC 是 
一 个 5 路 VLIW 处 理 器 。 在 VLIM 体系 中 ， 通 过 将 多 个 短 指令 合并 成 一 条 长 VLIW 

旧 令 的 方式 来 提高 计算 资源 的 利用 率 。 因 此 ， 向 量化 是 提高 AMDCPU 计算 资源 利 
用 率 的 有 效 方法 。 而 对 于 NVIDIA GPU 平台 ， 由 于 SP 是 完全 标量 化 的 设计 ， 编 译 
器 将 向 量化 操作 转化 成 相互 独立 的 标量 操作 ， 因 此 ， 向 量化 操作 对 NVIDIA GPU 平 
台 影 响 不 大 。 

虽然 两 个 GPU 平台 在 硬件 设计 上 存在 很 大 的 差异 ,但 在 整体 架构 设计 和 线程 
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调度 上 有 很 多 相似 性 ， 因 此 有 许多 通用 的 提高 计算 资源 有 效 利 用 率 的 优化 方法 : 

O 调整 线程 组 织 结构 ， 使 work - group 的 大 小 为 wave - front 或 者 warp 的 整 
数 倍 。 

口 每 个 CU 上 同时 并 发 运行 足够 数目 的 wave - front 或 者 warp, B} 隐藏 访 存 
延迟 。 

O 消除 分 支 对 性 能 的 影响 。 

口 充分 利用 共享 内 存 、 常 量 内 存 、cache 等 片上 资源 减少 访问 global memory 的 
次 数 。 


1.4.3 数据 本 地 化 


数据 本 地 化 的 实质 是 软件 工程 师 们 要 充分 尊重 和 理解 底层 硬件 的 限制 ， 并 且 用 
各 种 手段 规避 问题 ， 最 大 化 利用 手 里 的 硬件 资源 。GPU 提供 了 本 地 内 存 、cache 等 
片上 资源 ， 具 有 较 高 的 访 存 带宽 和 较 低 的 访 存 延 迟 。 充 分 利用 这 些 片 上 资源 实现 数 
据 的 共享 和 重用 ， 减 少 对 片 外 资源 的 访 存 次 数 ， 是 提高 CPU 程序 性 能 的 主要 方法 。 

片 外 访 存 带 宽 是 CPU kermel， 特 别 是 访 存 密集 型 kernel 性 能 的 主要 限制 因素 。 
最 大 限度 地 将 计算 数据 从 片 外 转移 到 片上 ， 并 实现 数据 的 共享 ， 减 少 对 访 存 带宽 的 
依赖 ， 是 缓解 这 个 限制 因素 的 主要 方法 。GPU 一 共 提 供 了 三 种 机 制 来 实现 数据 本 
地 化 。 

1. 本 地 内 存 (CUDA 称 为 共享 内 存 ) 机 制 

本 地 内 存 是 程序 员 可 控 的 一 块 片上 存储 资源 ， 具 有 比 全 局 内 存 更 高 的 访 存 带 宽 
和 更 低 的 访 存 延 运 。 此 外 ， 本 地 内 存 还 提供 了 位 于 同一 work - group 内 的 work - i- 
tem 通信 和 和 数据 共享 功能 以 及 对 高 性 能 原子 操作 的 支持 。 当 GPU kernel 中 存在 数据 
重用 或 work - group 内 的 work - item 间 需 要 通信 时 ， 使 用 本 地 内 存 有 明显 的 优势 ， 
可 有 效 减 小 对 片 外 访 存 带宽 的 依赖 ， 提 升 kernel 的 性 能 。 

2. 寄存 器 机 制 

本 地 内 存 虽然 可 很 好 地 实现 数据 本 地 化 ， 然 而 ,仅仅 依靠 本 地 内 存 ， 并 不 能 满 
足 计算 单元 所 需要 的 数据 量 。 如 AMD HD5850 GPU 每 个 SC (Streaming Core) 每 个 
时 钟 周 期 可 产生 两 个 4B 的 本 地 内 存 请 求 ， 而 SC 在 每 个 时 钟 周期 内 最 多 可 并 行 执 
行 5 条 指令 ， 大 约 需 要 10 ~ 15 个 操作 数 。 两 次 本 地 内 存 请 求 并 不 能 为 计算 指令 提 
供 足 够 的 计算 数据 。 所 以 ， 充 分 利用 寄存 器 也 是 实现 数据 本 地 化 的 重要 方法 。 

寄存 器 拥有 上 比 本 地 内 存 更 高 的 访 存 带宽 和 更 低 的 访 存 延 迟 。 然 而 ， 寄 存 器 只 对 
某 一 线程 可 见 ， 并 不 能 实现 线程 间 的 相互 通信 。 而 且 ， 寄 存 器 是 一 种 有 限 资源 ， 如 
AMD HD5850 GPU 为 每 个 CU 提供 了 256K 的 寄存 器 ，NVIDIA Tesla C2050 提供 了 
32K 的 寄存 器 。 过 度 使 用 寄存 器 会 减少 同时 并 发 执行 的 线程 数量 ， 造 成 CPU 程序 
性 能 的 降低 。 因 此 ， 在 寄存 器 的 使 用 上 ， 一 方面 我 们 要 充分 利用 寄存 器 实现 数据 本 
地 化 ， 另 一 方面 不 要 因为 过 度 使 用 寄存 器 而 造成 程序 性 能 的 降低 。 
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3. cache 机 制 

GPU 提供 了 简单 的 cache 机 制 ， 可 实现 对 只 读数 据 的 cache 功能 ， 以 降低 访 存 
HEY, SIM, cache 的 使 用 并 不 能 由 应 用 程序 开发 人 员 控 制 。 其 主要 使 用 方式 为 在 
GPU kernel 代码 中 显示 表明 内 存 数据 的 只 读 特 性 ,便于 编译 带 的 编译 优化 。 

从 优化 角度 讲 ， 数 据 本 地 化 可 提高 算法 的 计算 密度 。 同 访 存 带 宽 和 计算 峰值 限 
iil GPU 程序 性 能 的 原理 一 样 ， 计 算 密度 会 像 一 堵 墙 一 样 限制 CPU 程序 性 能 的 提 
升 ， 我 们 称 这 座 墙 为 计算 密度 墙 。 在 GPU 程序 优化 过 程 中 ， 特 别 是 针对 访 存 密集 
型 kermnel， 如 果 始 终 不 能 达到 理想 的 性 能 ， 则 通过 数据 本 地 化 提高 计算 密度 是 首要 
的 优化 方法 。 
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第 2 章 视频 图 像 处 理 在 智能 区 驶 中 
的 应 用 
2.1 引言 





汽车 从 诞生 开始 ， 以 其 便利 性 为 人 们 的 生活 提供 了 很 多 帮助 ， 为 改善 生活 做 出 
了 巨大 贡献 。 近 年 来 ， 随 着 经 济 的 快速 发 展 ， 私 人 汽车 数量 迅速 增加 ， 由 此 而 来 的 
道路 拥挤 、 交 通 事故 等 日 益 突 出 ， 其 中 交通 安全 性 是 最 受 大 众 关 注 的 问题 。 为 了 避 
免 交 通 事 故 的 发 生 ， 全 地 界 各 国 在 汽车 安全 性 设计 、 道 路 基础 设施 ， 以 及 安全 驾驶 
等 方面 投入 了 大 量 的 人 力 物力 ， 并 进行 了 各 方面 的 研究 。 于 是 ， 智 能 交通 系统 这 一 
研究 领域 应 运 而 生 。 

随 着 计算 机 硬件 和 软件 的 发 展 ， 给 汽车 行业 带 来 了 各 新 的 变革 。 

无 人 驾驶 车 辆 ， 又 称 为 无 人 车 、 自 主 车 、 智 能 车 辆 、 室 外 轮 式 移 动机 器 人 等 ， 涉 及 
认 知 科学 、 人 工 智能 、 机 器 人 技术 与 车 辆 工程 等 交叉 学 科 ， 是 各 种 新 兴 技 术 的 综合 试验 
床 与 理想 载体 ， 也 是 当今 前 沿 科 技 的 重要 发 展 方向 。 它 既 包 括 理论 方法 与 关键 技术 的 突 
破 ， 也 涉及 大 量 的 工程 与 试验 问题 ， 其 重大 研究 意义 不 仅 体现 在 所 包含 的 核心 科学 问题 
上 ， 同 时 又 反映 在 其 重大 应 用 前 景 与 战略 价值 上 ， 社 会 关注 度 极 高 。 

从 20 世纪 50 年 代 起 ， 美 、 英 、 德 等 西方 国家 已 经 开始 了 无 人 驾驶 汽车 的 研究 
工作 ， 并 且 在 无 人 车 的 控制 和 商用 化 方面 取得 了 一 定 的 进展 。 在 汽车 工业 非常 发 达 
的 德国 ， 各 大 汽车 公司 都 资助 或 联合 了 高 等 院 校 以 开发 可 在 普通 道路 上 行驶 的 无 人 
车 。 目 前 ， 欧 盟 已 经 开启 了 一 个 名 为 CyberCars 的 无 人 车 项 目 ， 以 推动 无 人 车 的 研 
究 和 各 国 间 的 信息 共享 。 

20 世纪 80 ERR, 我 国 部 分 大 学 开始 了 无 人 各 驶 汽车 的 研究 工作 ， 虽然 起 步 较 
晚 且 投入 不 足 ， 但 也 取 到 了 一 定 的 成 果 。 目 前 从 事 这 方面 研究 工作 的 主要 是 国防 科 
技 大 学 、 军 事 交 通 学 院 以 及 清华 大 学 等 科研 院 所 。 


2.1.1 国外 研究 现状 


1. 美国 
美国 于 20 世纪 50 年 代 开始 对 无 人 驾驶 车 辆 进行 研究 ， 在 1980 年 左右 其 技术 
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得 到 高 速 发 展 。20 世纪 80 年 代 ， 美 国 陆军 开始 与 国防 高 级 研究 计划 局 (DARPA) 
进行 合作 ， 开 展 了 自主 地 面 车 辆 (AVL) 项 目 。1995 年 由 卡耐基 梅 隆 大 学 研制 的 
Navlab - V 智能 车 ， 完 成 了 横 穿 美 国 东 西部 的 无 人 芍 驶 试验 。 美 国 国防 部 门 在 20 
世纪 90 年 代 末 开始 进行 DEMO 系列 无 人 驾驶 车 辆 的 研制 ， 总 共 研 制 出 了 十 代 
DEMO 无 人 车 。 

从 2004 年 开始 到 2007 年 ， 美 国 国防 高 级 研究 计划 局 (DARPA) 举办 了 3 次 
无 人 驾驶 车 辆 比赛 ， 主 要 为 了 考察 在 复杂 环境 下 无 人 驾驶 车 辆 的 自主 行驶 能 
2004 年 3 月 在 美国 西部 的 莫 哈 维 沙漠 (Mojave Desert) 举办 了 首届 DARPA 挑战 
赛 一 一 崎 凤 地 形 大 挑战 。 共 有 15 支队 伍 参 赛 ， 最 终 没有 一 支 车 队 完 成 比赛 ， 其 中 
行驶 距离 最 远 的 一 支队 伍 是 卡耐基 梅 隆 大 学 的 Sandstorm 无 人 驾驶 车 辆 (图 2-1)。 











so ee 


图 2-1 首届 DARPA 挑战 赛 中 行 强 距离 最 远 的 Sandstorm 无 人 驾驶 车 辆 























第 二 届 DARPA 挑战 赛 一 一 沙漠 挑战 赛 于 2005 年 10 月 还 是 在 美国 西部 的 莫 哈 
维 沙漠 举办 ， 共 有 23 支队 伍 参赛 ,， 最终 只 有 4 队 在 规定 时 间 内 完成 比赛 ， 斯 坦 福 
大 学 的 Stanley 无 人 驾驶 车 辆 获得 了 第 一 名 (图 2-2)。 

第 三 届 DARPA 挑战 赛 一 一 城市 挑战 赛 于 2007 年 11 月 在 洛杉矶 东北 维 克 多 维 
尔 的 一 个 废弃 空军 基地 举办 ， 共 89 支队 伍 参赛 ， 只 有 11 支队 伍 取得 决赛 资格 ,最 
终 3 辆 车 在 无 人 干预 下 完成 比赛 ,另外 3 辆 车 在 少量 人 工 干预 下 完成 比赛 。 卡 耐 基 
梅 隆 大 学 的 Boss 、 斯 坦 福 大 学 的 Junior 和 弗吉尼亚 州 大 学 的 Odin 获得 这 次 比赛 的 
前 三 名 。 

谷歌 公司 研制 了 7 辆 无 人 车 (图 2-3)， 并 于 2010 年 对 它们 开展 了 城市 实际 道 
路 测试 。 这 些 无 人 驾驶 车 辆 可 以 进行 正确 的 行驶 ， 具 有 完备 的 感知 能 力 和 高 水 平 的 
人 工 智能 ， 无 人 车 可 以 自动 地 识别 信号 灯 、 行 人 以 及 车 辆 等 。 谷 歌 公 司 的 无 人 车 同 
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2-2 第 二 届 DARPA 挑战 赛 中 获得 第 一 名 的 Stanley 无 人 驾驶 车 辆 








时 还 可 以 运用 谷歌 街景 地 图 对 车 辆 进行 导航 ， 在 内 华 达 州 、 佛 罗 里 达州 和 加 利 福 尼 
亚 州 已 专门 为 无 人 驾驶 车 辆 上 路 制定 并 通过 了 相关 法 律 。 





Re a ish tat 


图 2-3 谷歌 无 人 驾驶 汽车 





2012 年 ， 谷 歌 宣布 其 公司 的 十 余 辆 无 人 驾驶 汽车 已 经 在 计算 机 的 控制 下 安全 
行驶 了 30 万 mile ( 约 48 万 km)。5 月 8 日 , 美国 内 华 达 州 机 动车 辆 管理 部 门 
(DMV) 为 谷歌 的 自动 驾驶 车 颁发 了 首 例 忽 驶 许可 证 ， 这 意味 着 谷歌 自动 驾驶 车 将 
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很 快 在 内 达 华 州 上 路 。 内 华 达 政府 相关 人 士 表示 : 无 人 驾驶 汽车 上 路 测试 的 前 提 
是 ， 确 保 总 有 人 能 够 在 转向 盘 后 进行 控制 ， 另 外 还 有 一 人 能 够 观察 驾驶 系统 。 

2. 欧洲 

欧洲 各 国 的 无 人 驾驶 车 辆 技术 在 世界 上 也 处 于 领先 水 平 ， 他 们 在 无 人 驾驶 车 辆 
及 其 相关 领域 进行 了 很 多 科学 研究 工作 ， 比 如 PROMETHEUS 计划 和 PREVENT 计 
划 。1987 年 到 1995 年 间 ，PROMETHEUS 计划 是 欧洲 在 无 人 车 研究 领域 最 大 的 项 
目 ， 其 领军 人 ErnstDickmanns 于 1994 年 带领 项 目 组 研制 的 VaMP 和 VITA -2 机 器 
人 车 辆 在 法 国 的 高 速 公路 上 行驶 了 1000 多 km， 能 自主 完成 变 道 、 超 车 和 跟踪 行 
驶 ， 车 辆 行驶 速度 最 高 能 达到 130km/h, Ernst Dickmanns 在 1995 年 又 重新 对 奔驰 
自主 车 进行 了 设计 ， 进 行 了 1600km 路 程 的 行驶 测试 ， 车 辆 的 最 高 行驶 速度 超过 了 
175km/h, 

欧盟 对 PREVENT 项 目的 总 资金 预算 超过 了 5500 万 欧元 ， 总 共有 50 多 家 单位 
参与 进 了 该 项 目 ， 其 中 包括 著名 的 研究 机 构 和 汽车 生产 厂商 。PREVENT 项 目 为 无 
人 驾驶 车 辆 研究 提出 了 时 间 -碰撞 时 间 表 ， 虚 拟 安全 带 和 智能 车 辆 由 感知 、 决 策 、 
执行 三 层 架 构 组 成 这 三 个 总 体 概 念 。 

意大利 帕 尔 玛 大 学 研制 的 ARGO 智能 车 也 达到 了 很 高 的 水 平 ，2010 年 10 A, 
ARGO 试验 车 只 用 了 极 少 次 的 人 工 干 预 ， 从 罗马 出 发 成 功 抵达 上 海 ， 总 共 行 驶 了 
13000 多 km， 历 时 3 个 多 月 。 德 国 柏林 自由 大 学 研制 的 无 人 驾驶 车 辆 MadeinGer- 
many， 从 柏林 勃 兰 登 堡 门 出 发 ， 自 主 行驶 到 柏林 国际 会 议 中 心 后 ， 又 安全 返回 出 
发 地 ， 顺 利通 过 了 46 个 交通 灯 并 绕 过 两 处 环岛 ， 整 个 行程 近 20km， 代 表 了 目前 无 
人 驾驶 车 辆 的 世界 最 高 水 平 。 

牛津 大 学 研制 的 无 人 驾驶 车 辆 Wildcat 不 使 用 GPS， 它 使 用 激光 雷达 和 立体 相 
机 监控 路 面 状况 、 交 通 状 况 ， 以 及 行人 和 其 他 障碍 物 ， 在 崎 虹 山 路 上 能 实现 自主 行 
驶 、 堵 车 绕道 ; 牛津 大 学 另外 研制 的 无 人 驾驶 车 辆 RobotCarUK 使 用 iPad 处 理 数 
据 、 输 出 指令 ， 不 使 用 GPS， 但 是 只 能 在 熟悉 环境 下 发 挥 作用 ， 成 本 低廉 ， 仅 使 用 
一 套 7750 美元 的 立体 相机 和 激光 系统 对 汽车 前 方 道路 进行 识别 与 定位 ， 该 无 人 驾 
驶 车 辆 是 为 短途 、 常 规 驾 驶 的 路 途 而 设计 的 。 


2.1.2 国内 研究 现状 


20 世纪 80 年 代 ， 我 国 开始 对 智能 移动 机 器 人 进行 研究 ，1980 年 国家 立项 了 
“ 脖 控 驾驶 的 防 核 化 侦察 车 ”项 目 ， 哈 尔 滨 工业 大 学 、 沈 阳 自 动 化 研究 所 和 国防 科 
技 大 学 三 家 单位 参与 了 该 项 目的 研究 制造 。“ 八 五 ”期 间 ， 由 北京 理工 大 学 、 国 防 
科技 大 学 等 五 家 单位 联合 研制 成 功 了 ATB -1 (AutonomousTestBed -1) 无 人 车 ， 
这 是 我 国 第 一 辆 能 够 自主 行驶 的 测试 样 车 ， 其 行驶 速度 可 以 达到 21km/h, ATB -2 
无 人 车 也 在 “ 九 五 ”期 间 顺 利 研 制 成 功 ， 与 ATB -1 相 比 ， 其 功能 得 到 了 大 大 加 
强 ， 直 线 行 驶 速度 最 高 可 以 达到 21m/s, 2005 年 ， 第 三 代 自 主 行驶 车 辆 Autono- 























25 


ooo 视频 图 像 处 理 与 性 能 优化 


mousTestBed -3 也 研制 成 功 ，ATB -3 的 环境 认 知 和 轨迹 跟踪 能 力 进一步 得 到 加 强 。 

国防 科技 大 学 也 代表 了 国内 自主 车 辆 研究 的 较 高 水 平 ， 他 们 成 功 研制 了 无 人 驾 
驶 汽车 一 一 红旗 CA7460 ， 它 根据 前 方 障碍 车 辆 的 情况 可 以 自动 进行 车 道 变换 ， 其 
最 高 行驶 速度 可 以 达到 47m/s; 由 国防 科技 大 学 自主 研制 的 红旗 HQ3 无 人 车 ， 
2011 年 7 月 14 日 首次 完成 了 从 长 沙 到 武汉 286km 的 高 速 全 程 无 人 驾驶 实验 ， 创 造 
了 中 国 自主 研制 的 无 人 车 在 复杂 交通 状况 下 自主 驾驶 的 新 纪录 ， 标 志 着 中 国 无 人 车 
在 复杂 环境 识别 、 智 能 行为 决策 和 控制 等 方面 实现 了 新 的 技术 突破 ， 达 到 世界 先进 
水 平 。 

红旗 HQ3 无 人 车 由 国防 科技 大 学 自主 研制 ，2011 年 7 月 中 旬 它 从 京 沙 高 速 公 
路 长 沙 杨 梓 冲 收 费 站 出 发 ， 历 时 3h 22min 到 达 武 汉 ， 总 距离 286km。 实 验 中 ,无 
人 车 自主 超车 67 次 ， 途 遇 复 杂 天 气 ， 部 分 路 段 有 雾 ， 在 咸宁 还 遭逢 降雨 。 

红旗 HQ3 全 程 由 计算 机 系统 控制 车 辆 行驶 速度 和 方向 ， 系 统 设 定 的 最 高 时 速 
为 110kmXh。 在 实验 过 程 中 ,实测 的 全 程 自主 驾驶 平均 时 速 为 87km/h。 国 防 科技 
大 学 方面 透露 ， 该 车 在 特殊 情况 下 进行 人 工 干 预 的 距离 仅 为 2.24km， 仅 占 自 主 轰 
驶 总 里 程 的 0.78% 。 

从 20 世纪 80 年 代 末 开始 ， 在 次 汉 根 教授 带领 下 ，2001 年 研制 成 功 时 速达 
T6km/h 的 无 人 车 ，2003 年 研制 成 功 中 国 首 台 高 速 无 人 驾驶 轿车 ,最 高 时 速 可 达 
170km/h; 2006 年 研制 的 新 一 代 无 人 驾驶 红旗 HQ3 ， 则 在 可 靠 性 和 小 型 化 方面 取得 
突破 。 此 次 红旗 HQ3 无 人 车 实验 成 功 创造 了 中 国 自 主 研制 的 无 人 车 在 复杂 交通 状 
况 下 自主 驾驶 的 新 纪录 ， 这 标志 着 中 国 在 该 领域 已 经 达到 世界 先进 水 平 。 

THMR - V 无 人 车 由 清华 大 学 研制 成 功 (TsinghuaMobileRobot) ， 它 的 最 高 行驶 
速度 也 可 以 达到 42m/s， 除 此 之 外 ， 和 车辆 还 可 以 根据 不 同 的 驾驶 场景 选择 高 速 公路 
和 城区 公路 两 种 和 驾驶 模式 ;由 西安 交通 大 学 研制 的 Springrobot 也 是 我 国 著 名 的 无 人 
车 平台 之 一 ， 其 具有 较 高 的 车 道 线 检测 和 行人 检测 能 


2.2 车 道 线 的 提取 和 跟踪 


视觉 是 人 类 观察 世界 、 认 识 世 界 的 重要 功能 手段 ， 人 类 从 外 界 获得 的 信息 约 有 
75% 来 自视 觉 系 统 ， 特 别 是 驾驶 人 驾驶 需要 的 信息 90% 来 自视 觉 。 在 目前 汽车 辅 
助 训 驶 所 采用 的 环境 感知 手段 中 ， 视 觉 传感器 比 超声 波 、 激 光 雷 达 等 可 获得 更 高 、 
更 精确 、 更 丰富 的 道路 结构 环境 信息 。 随 着 计算 机 技术 的 发 展 和 图 像 处 理 / 识 别 技 
术 的 成 熟 ， 机 器 视觉 技术 获得 长 足 的 发 展 ， 目 前 广泛 应 用 在 三 维 测 量 、 三 维 重 建 、 
虚拟 现实 、 运 动 目标 检测 和 目标 识别 等 方面 。 在 汽车 的 目 动 各 驶 方面 ， 一 个 前 提 性 
的 问题 就 是 路 况 识别 和 车 辆 、 障 碍 物 的 距离 、 速 度 检 测 ， 解 决 了 这 个 问题 才 可 能 
控制 汽车 的 禹 驶 。 而 机 带 视 觉 技 术 融 合 三 维 测量 和 图 像 识 别 技术 于 一 里 。 

在 无 人 驾驶 智能 系统 中 ， 基 于 视觉 的 车 道 线 识别 是 视觉 感知 部 分 使 用 最 广泛 的 
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导航 感知 咒 。 根 据 智 能 车 安装 摄像 头 个 数 的 不 同 ， 又 分 为 单 目 视 觉 和 双 目 视觉 。 其 
中 单 目 视觉 的 计算 量 小 、 实 时 性 高 ， 更 便于 在 实际 中 使 用 ， 应 用 更 加 广泛 。 

同时 ， 也 有 相应 的 研究 在 视觉 基础 上 ， 加 入 雷达 、GPS 等 辅助 信息 ， 采 用 多 传 
感 锅 技术 融合 的 方法 ， 实 现 车 道 线 的 识别 。 

SorenKammel 在 AnnieWAY 汽车 的 基础 上 ， 提出 基于 激光 雷达 和 数字 地 图 信息 
融合 的 车 道 线 识别 方法 ， 系 统 能 够 估计 数字 地 图 与 实际 路 况 的 偏差 ，HuangAS 提出 
基于 视觉 和 雷达 多 传感器 融合 的 多 车 道 线 识别 ， 将 识别 分 成 3 个 阶段 并 采用 多 处 理 
器 实现 ， 第 一 阶段 检测 和 定位 每 个 摄像 机 图 像 中 的 标志 线 ， 并 通过 雷达 获取 的 数据 
减少 检测 错误 率 ; 第 二 阶段 ， 通 过 检测 的 车 道 线 和 获取 的 相关 数据 预测 行驶 车 道 线 
附近 的 中 心 线 ; 第 三 阶段 将 检测 到 的 中 心 线 进行 滤波 、 跟 踪 、 信 息 融 合 ， 从 而 识别 
出 多 车 道 。 

QingquanLi 采用 了 视觉 和 激光 雷达 多 传感器 信息 融合 的 方法 检测 车 道 线 ， 提 出 
用 特征 信息 融合 的 方法 寻找 到 最 优 的 可 行驶 区 域 ， 然 后 在 最 优 行驶 区 域 里 检测 车 道 
线 ， 该 系统 对 结构 化 和 非 结构 化 道路 均 适 用 。 

目前 车 道 识别 的 方法 主要 分 为 两 类 ， 基 于 图 像 特征 的 方法 和 基于 模型 的 方法 。 
基于 图 像 特 征 识别 的 原理 是 利用 了 和 车道 标志 线 边缘 与 道路 图 像 周围 路 况 之 间 特 征 的 
差异 ， 通 常 的 特征 差异 有 图 像 的 纹理 、 边 缘 几 何 形状 、 边 界 的 连续 性 、 感 兴趣 区 域 
的 灰 度 值 及 对 比 度 等 ， 可 以 使 用 靖 值 分 割 等 方法 提取 图 像 特征 ， 算 法 简单 易 实 现 ， 
缺点 是 易 受 噪声 、 树 木 的 阴影 遮挡 、 光 照 变化 、 标 志 线 间断 不 连续 等 因素 干扰 和 车道 
线 识 别 ， 甚 至 可 能 无 法 识别 出 车 道 线 ; 模型 匹配 的 原理 是 针对 结构 化 道路 的 几何 特 
征 ， 建 立 相 应 的 车 道 线 模型 ， 辨 识 道路 模型 参数 ， 进 而 识别 出 车 道 标志 线 。 由 于 图 
像 特征 法 的 局 限 性 ， 在 实际 研究 中 一 般 将 图 像 特 征 法 和 模型 匹配 法 相 结合 ， 问 题 的 
关键 是 寻找 出 与 车 道 线 匹 配 的 最 佳 模 型 。 

JiangRuyi 提出 一 种 新 的 车 道 线 模型 ， 该 模型 中 的 5 个 参数 用 来 模拟 左右 车 道 
线 边缘 的 对 点 ， 能 够 用 于 检测 多 种 形状 的 车 道 标志 线 ; JuseokShin 提出 一 种 基于 顶 
视图 的 RANSAC 算法 和 曲线 模型 检测 图 像 车 道 线 ， 先 由 图 像 着 投影 变换 生成 顶 视 
图 ， 然 后 用 RANSAC 算法 检测 车 道 线 ， 再 用 曲线 模型 将 车 道 线 延 伸 至 感 兴趣 区 域 
的 底部 。 

但 目前 现存 有 一 些 不 可 回避 的 问题 ， 当 道路 地 面 的 车 道 线 清晰 ， 周 围 环境 良好 
时 ， 那 么 算法 都 能 够 检测 出 车 道 线 , 但 在 不 同 光照 和 气候 变化 时 ,算法 则 有 待 
改善 。 

车 道 线 (图 2-4) 的 标 划 区 分 : 

O HERR: 划 于 路 段 中 时 ， 用 以 分 隔 同 向 行驶 的 交通 流 或 作为 行车 安全 距离 
识别 线 ; 划 于 路 口 时 ， 用 以 引导 车辆 行进 。 

DAR: 划 于 路 段 中 时 ， 用 以 分 隔 同 向 行驶 的 机 动车 和 非 机 动车 或 指示 车 
行道 线 ; 划 于 路 口 时 ， 用 作 导 向 车 道 线 或 停车 线 。 
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口 黄色 虚线 : 划 于 路 段 中 时 ， 用 以 分 隅 对 向 行驶 的 交通 流 ; 划 于 路 侧 或 路 缘 石 
上 时 ， 用 以 禁止 车 辆 长 时 在 路 边 停放 。 

口 黄色 实 线 : 划 于 路 段 中 时 ， 用 以 分 隅 对 向 行驶 的 交通 流 ; 划 于 路 侧 或 路 缘 石 
上 时 ， 用 以 禁止 车 辆 长 时 或 临时 在 路 边 停 放 。 

口 双 白 虚线 : 划 于 路 口 时 作为 减速 让 行 线 ， 划 于 路 段 中 时 ， 作 为 行车 方向 随时 
间 改 变 之 可 变 车 道 线 (潮汐 车 道 线 ) 。 

口 双 黄 实 线 : 划 于 路 段 中 时 ， 用 以 分 隅 对 向 行驶 的 交通 流 。 

口 黄色 虚实 线 : 划 于 路 段 中 时 ， 用 以 分 隔 对 向 行驶 的 交通 流 。 黄 色 实 线 一 侧 禁 














止 车 辆 超车 、 跨 越 或 掉头 ， 黄 色 虚 线 一 侧 在 保证 安全 的 情况 下 准许 车 辆 超车 、 跨 越 
或 掉头 。 
O 双 白 实 线 : 划 于 路 口 时 ， 作 为 停车 让 行 线 。 


SME fi. Ji 
$ taai.: 
a 








图 2-4 各 种 车 道 线 


2.2.1 道路 图 像 预 处 理 方法 


车 道 分 界线 是 用 来 分 隔 同 方向 行驶 的 交通 流 的 交通 标志 线 ， 凡 同方 向 车 行道 有 
两 条 或 两 条 以 上 车 道 时 ， 均 应 划 车 道 分 界线 。 和 车道 分 界线 有 两 种 ， 即 车 道 分 界 虚线 
和 导向 车 道 分 界 实 线 。 在 保证 安全 的 原则 下 ， 车 道 分 界 虚 线 准 许 车 辆 越 线 超车 或 变 
更 车 道行 驶 ; 导向 车 道 分 界 实 线 不 准 车 辆 越 线 或 变更 车 道 。 

车 载 相机 采集 到 的 图 像 容 易 受 外 界 环境 ， 如 光照 、 天 气 、 阴 影 等 因素 的 影响 ， 
导致 车 道 边 缘 模 糊 ， 同 时 道路 图 像 还 包含 了 大 量 的 干扰 信息 ， 如 路 旁 树 木 、 栅 栏 
等 ， 给 车 道 线 的 识别 增加 了 难度 ， 因 此 需 对 图 像 进 行 预 处 理 ， 改 善 图 像 质量 ,提取 
感 兴趣 信息 ， 剔 除 掉 无 关 信息 。 

为 了 降低 计算 的 复杂 度 ， 需 要 将 图 像 灰 度 化 (图 2-5， 见 彩 插 ) ， 然 后 对 灰 度 
图 像 滤波 处 理 ， 去 除 噪声 后 的 道路 图 像 经 过 二 值 化 转变 成 黑白 图 像 ， 最 后 对 二 值 图 
像 提取 感 兴趣 区 域 和 边缘 。 

为 了 提高 图 像 中 车 道 线 信息 的 可 识别 性 ， 降 低 车 道 线 识 别 算法 的 复杂 度 ， 需 要 
对 采集 到 的 图 像 进 行 滤波 处 理 ， 去 除 图 像 中 的 噪声 。 图 像 去 噪 处理 多 采用 平滑 技 
术 ， 主 要 包括 频 域 滤波 和 空域 滤波 两 大 类 。 频 域 滤波 需要 将 信号 从 空间 域 转换 到 频 
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图 2-5 ”车道 线 图 像 灰 度 化 


KWR, 计算 量 很 大 ， 很 难 满足 系统 的 实时 性 要 求 。 空 域 滤波 是 在 空间 域内 对 图 像 像 
素 的 灰 度 值 进行 处 理 ， 是 常用 的 滤波 算法 ， 一 般 常 用 的 空间 域 滤波 方法 为 中 值 
滤波 。 

中 值 滤波 是 一 种 在 去 除 噪 声 的 同时 又 能 保护 目标 边界 信息 ， 不 使 其 边缘 变 得 模 
糊 的 非 线 性 处 理 技术 。 它 将 每 一 像素 点 的 灰 度 值 设置 为 该 点 某 邻 域 窗 口内 的 所 有 像 
素 点 灰 度 值 的 中 值 。 所 以 其 对 汽车 拌 动 引起 的 边缘 毛刺 ， 以 及 汽车 制 动 对 车 道 标识 
线 的 损伤 和 孤立 等 噪声 有 较 好 的 滤波 效果 。 中 值 滤波 的 数学 表达 式 如 式 (2-1) 
所 示 。 

fCj) = median} Sx; j | (2-1) 

RP, | Sap [ALA j) R. 

图 像 的 绝 大 部 分 能 量 一 般 位 于 信号 的 低频 部 分 ， 噪 声 位 于 高 频 部 分 ， 而 图 像 中 
的 一 些 边 缘 和 细节 信息 也 位 于 高 频 部 分 ， 采 用 中 值 滤波 的 好 处 就 是 既 滤 除 高 频 的 品 
声 干 扰 ， 又 能 很 好 地 保留 边缘 信息 。 道 路 图 像 经 过 灰 度 变化 和 滤波 后 的 图 像 如 图 
2-6 所 示 。 

















2-6 原始 图 和 灰 度 化 中 值 滤波 后 的 图 像 

















道路 图 像 经 过 滤波 处 理 后 ， 包 含 大 量 的 背景 干扰 信号 。 为 了 提取 出 感 兴趣 的 车 
道 线 区 域 ， 提 高 车 道 线 检测 的 实时 性 和 准确 性 ， 需 要 从 道路 图 像 中 将 车 道 线 区 域 分 
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制 出 来 ， 即 所 谓 的 图 像 分 制 处 理 。 图 像 分 割 即 为 选择 一 个 合理 的 阔 值 ， 将 图 像 划 分 
为 目标 区 域 和 背景 区 域 。 
国 值 分 割 是 基于 区 域 的 图 像 分 割 技术 ， 其 基本 原理 是 : 设 定 不 同 的 国 值 ， 把 像 
素 点 分 成 若干 类 。 假 设 原始 图 像 的 像素 值 为 Fx,y) ， 按 照 一 定 的 准则 找到 靖 值 了， 
将 图 像 分 割 为 两 部 分 ， 分 割 后 的 图 像 像素 值 为 : 
0, f(x,y) < 了 
g(x,y) = 1 flay) BT (2-2) 

AVP IRIE AKT BE TI, WW 255 (白色 ) ， 反 之 则 置 为 
0 〈 黑 色 ) 。 该 方法 的 分 割 效果 受 囚 值 影响 很 大 ， 同 时 在 不 同 环境 下 国 值 需要 重新 
调整 ， 效 果 不 佳 。 

最 大 类 间 方 差 法 由 日 本 学 者 大 津 展 之 于 1979 年 提出 ， 又 称 大 津 算法 (OTSU). 
大 津 算法 (OTSU) 是 一 种 全 局 国 值 选取 法 ， 它 在 判别 式 分 析 最 小 二 乘 原理 的 基础 
上 推导 得 出 ， 因 其 算法 简单 ， 所 以 是 被 广泛 使 用 的 图 像 分 割 算法 。 

在 图 像 中 ， 方 差 是 灰 度 分 布 是 否 均匀 的 度量 之 一 。 方 差 越 大 ， 说 明 图 像 中 的 背 
景 和 目标 的 差别 就 越 大 。 当 一 些 背 景区 域 错 误 划 分 为 目标 或 者 一 些 目标 区 域 错误 划 
成 背景 时 ， 青 景 和 目标 的 差别 就 会 变 小 。 因 此 采用 类 间 方 差 最 大 的 图 像 分 制 ， 其 错 
分 的 概率 就 最 小 。 

假设 图 像 的 目标 和 硼 景 的 分 割 国 值 为 了 ， 且 前 景 像 素 点 数 占 图 像 的 比例 为 w, 
其 平均 灰 度 为 上 ; 背景 像素 点 占 图 像 的 比例 为 o, FIKEN m; 图 像 的 平均 灰 
度 记 为 hk， 类 间 方 差 记 为 go 

M x N 大 小 的 图 像 中 像素 的 灰 度 值 小 于 净值 了 的 像素 个 数 记 作 N ， 像 素 灰 度 
大 于 净值 了 的 像素 个 数 记 作 N,， 则 有 : 



















































































Ni 
1 MXN (2-3) 

N, 
2 = Mx N (aa) 
N +N, =MxN (2-5) 
w; +w, =1 (2-6) 
HEHU XO, +My Xw, (2-7) 
& =, X (u-u)? +0 x (Mp)? (2-8) 

将 式 (2-7) RAR (2-8) ， 得 到 等 价 公式 ; 

& =O, Xp X (fy — My)” (2-9) 











当 方差 g 最 大 的 时 候 ， 就 是 目标 和 背景 的 差异 最 大 的 时 候 ， 此 时 得 到 的 灰 度 值 

就 是 最 佳 立 值 。 可 以 得 到 大 津 算法 (OTSU) A REBRE T 的 公式 : 
T=arg max, ce dist = |Mo(t) -ABCbD | wolt) w(t) (2-10) 
在 gj， <b <2 中 穷 举 每 一 个 ! 值 ， 使 得 dist 取得 最 大 值 的 上 即 为 要 求 的 阔 值 。 
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大 津 算法 (OTSU) 二 值 化 的 效果 图 如 图 2-7 所 示 。 

































图 2-7 大津 算 法 (OTSU) 二 值 化 的 效果 图 
2.2.2 边缘 检测 


图 像 的 边缘 是 图 像 的 基本 特征 ， 常 存在 于 目标 与 背景 之 间 。 边 缘 点 附近 的 像素 
灰 度 通常 存在 阶 路 变换 或 屋顶 状 变换 。 边 缘 提 取 方 法 分 为 两 类 : 一 类 是 基于 图 像 边 
缘 拟 合算 子 的 提取 方法 ; 另 一 类 是 基于 微分 算 子 求 得 图 像 边缘 ， 滤 波 央 模板 在 这 类 
算法 中 大 量 使 用 。 

边缘 提取 是 图 像 处 理 中 基础 而 重要 的 步 又， 是 图 像 识别 的 基础 。 道 路 图 像 中 的 
车 道 线 边缘 是 车 道 线 和 路 面 之 间 像 素 灰 度 有 屋顶 变化 或 阶 跃 变 化 的 像素 集合 ， 是 车 
道 线 的 基本 特征 之 一 。 和 常用 的 边缘 提取 算 子 有 Roberts 算 子 、Sobel 算 子 、Laplace 
算 子 、Krisch 算 子 、Prewitt 算 子 和 Canny 算 子 。 

边缘 检测 后 的 图 像 往往 存在 大 量 非 车 道 线 的 边缘 信息 ， 这 些 信息 将 对 后 续 的 车 
道 线 拟 合 产生 干扰 ， 因 此 需要 尽 可 能 地 将 这 些 非 车 道 边 缘 信息 滤 除 。 

Canny 算 子 是 高 斯 函数 的 一 阶 微分 ， 能 在 噪声 抑制 和 边缘 检测 之 间 取 得 较 好 的 
平衡 。Canny 算 子 提取 的 图 像 边 缘 如 图 2-8 所 二 

es | 






















































































图 2-8 Canny 算 子 边缘 检测 效果 图 
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2.2.3 基于 Hough 变换 的 车 道 线 检 测 


EX (Hough) 变换 于 1468 年 由 Paul Hough 提出 ， 是 一 种 依据 图 像 全 局 统计 
特性 的 目标 检测 方法 ，Hough 变换 利用 两 个 不 同 坐 标 系 之 间 的 变换 来 检测 图 像 中 的 
直线 和 曲线 。 它 将 图 像 空 间 中 的 直线 映射 到 参数 空间 的 一 个 点 ， 然 后 对 该 点 进行 累 
计 投 票 ， 这 样 便 可 得 到 参数 空间 中 的 峰值 。 经 过 Hough 变换 后 ， 直 线 的 检测 问题 
便 转 换 成 了 参数 空间 峰值 的 统计 问题 ， 提 取出 的 峰值 经 过 反 变 换 拟 合 出 所 需 的 直线 
方程 。 

一 般 的 直线 用 斜率 上 MIRE b 来 表示 ， 即 以 方程 y = ix +b 表示 。 如 果 检 测 直 
线 的 N 个 边缘 表示 为 











(xo + Yo) Ry > V1) Enis Yn-1) 
假设 直线 的 方程 表达 式 为 y = ix +5， 于 是 可 以 得 到 nn 个 方程 式 : 
Yo =hxy +byy, =hx, +b ery, 1 =hx,_1+6 

用 计数 器 num [k] [0] 记录 每 一 可 能 直线 的 值 ，num 中 的 最 大 值 对 应 的 直线 
y=kx +b 即 为 待 求 直线 的 最 佳 解 。 

鉴于 上 述 方法 很 难 确定 斜率 堪 的 取 值 范 围 ， 如 果 和 斜率 上 取 值 太 细 ， 则 计算 量 
K; MR k 取 值 太 粗 的 话 ， 叉 会 造成 所 求 直 线 的 准确 率 不 够 。 图 像 空 间 中 的 任 一 
直线 均 可 用 极 坐 标 表示 : 








p =xcos0 + ysinð (2-11) 
RP, p 为 直线 1 相对 于 坐标 原点 的 距离 ; 9 为 直线 1 与 x 轴 的 夹 角 。 
如 图 2-9 所 示 ， 直 角 坐 标 空间 上 的 一 点 转换 到 极 坐标 空间 上 ， 则 是 一 条 正弦 曲线 。 
直角 坐标 空间 上 的 同一 条 直线 上 的 各 点 在 极 坐标 空间 对 应 的 曲线 均 相 交 于 一 点 



































图 2-9 Hough 变换 图 
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区 域 (ROD 的 建立 是 在 空间 直角 坐标 系 下 确定 车 道 线 可 能 存在 的 区 域 范围 ， 这 样 
会 缩短 车 道 线 检测 的 时 间 ， 提 高 了 检测 速率 和 实时 性 。 

对 图 像 建立 直角 坐标 系 ， 坐 标 原 点 在 图 像 中 心 ， 则 距离 坐标 原点 宽度 的 左 
右 两 侧 分 别 有 一 个 宽度 为 W 的 矩形 区 域 ， 这 两 个 矩形 区 域 就 是 我 们 建立 的 ROL， 
如 图 2-10 所 示 。 











图 2-10 ”图像 中 ROT 区 域 
预 处 理 后 的 图 像 只 剩 车 道 线 的 边缘 ， 根 据 车 道 线 建 立 ROI 后 ，Hough 变换 会 大 
大 降低 计算 复杂 度 。 经 过 Hough 变换 后 ， 便 可 得 到 当前 预 估 的 车 道 线 情 况 。 然 后 
将 预 估 的 车 道 线 斜率 与 混合 高 斯 模型 中 的 车 道 线 斜率 对 比 ， 如 果 两 者 相差 在 一 定 阐 
值 范围 内 ， 则 将 预 估 的 车 道 线 确定 为 检测 的 车 道 线 ， 并 用 预 估 车 道 线 斜率 来 更 新 高 
斯 混合 模型 的 参数 ; 否则 ， 侈 弃 当 前 的 预 估 的 车 道 线 ， 而 采用 高 斯 混合 模型 中 的 车 
道 线 。 车 道 线 检测 效果 如 图 2-11 所 示 。 
































$ 





图 2-11 车 道 线 检 测 效果 图 
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通过 以 上 实验 结果 分 析 可 知 ， 基 于 Hough 变换 的 车 道 线 检测 具有 较 好 的 性 能 ， 
其 检索 结果 符合 智能 车 对 车 道 线 的 要 求 。 但 算法 还 存在 进一步 研究 的 问题 ，Hough 
提取 的 速度 在 一 定 程度 上 影响 了 该 算法 的 实用 性 ， 同 时 在 拐弯 以 及 光线 不 足 等 环境 
下 ,检测 效果 有 待 改善 ， 可 结合 车 道 线 的 检测 算法 对 车 道 线 进行 跟踪 检测 ， 从 而 解 
决 车 道 线 漏 检 等 问题 。 


2.3 ”交通 标志 上 牌 的 检测 和 识别 


2001 年 ， 威 斯 康 星 大 学 的 Liu 和 Ran 设计 识别 停止 标志 的 系统 。 首 先 利用 HIS 
颜色 空间 进行 检测 ， 然 后 用 神经 网 络 的 方法 进行 分 类 和 识别 。 系 统 实验 图 像 为 540 
幅 ， 准 确 率 为 95% 。 但 该 方法 仅 针对 一 种 标志 可 行 ， 不 具备 普遍 适应 性 。 

2015 年 ， 澳 大 利 亚 Nick Barnes 自动 化 研究 所 和 瑞典 的 Gareth Loy 实验 室 合作 
开发 了 一 套 交 通 标志 识别 系统 ， 该 系统 根据 标志 图 像 的 几何 对 称 性 来 确定 其 质心 位 
置 ， 进 而 进行 识别 ， 识 别 率 可 达 95% ， 但 系统 实时 性 却 无 法 满足 要 求 。 

2009 年 ， 澳 大 利 亚 国 家 信息 与 通信 技术 实验 室 的 研究 人 员 公 开 了 他 们 最 新 设 
计 的 驾驶 人 辅助 系统 ， 该 系统 由 小 型 摄像 机 和 标志 识别 系统 组 成 。 三 台 小 型 摄像 机 
分 别 被 安装 在 汽车 的 车 内 后 视 镜 和 仪表 板 两 侧 ， 当 发 现 交 通 标志 时 ， 可 通过 连接 在 
速度 仪 上 的 传 感 装置 和 另外 两 台 摄像 机 分 析 驾 驶 人 是 和 否 遵守 了 交通 规则 ， 在 识别 技 
术 上 主要 采取 了 形状 识别 的 方法 。 这 套 系 统 在 晴天 时 可 准确 识别 各 种 交通 标志 ， 并 
按照 交通 标志 规定 对 驾驶 人 进行 警告 和 提醒 ， 但 阴雨 天 气 时 识别 效果 却 不 够 理想 。 

Feixiang Ren 等 经 过 颜色 初 分 制 和 Hough 变换 提取 自然 场景 中 可 疑 标志 区 域 ， 
然后 采用 SIFT 算法 提取 可 疑 区 域 特征 点 ， 结 合 特 征 点 匹配 算法 最 近 令 算法， 实现 
交通 标志 的 识别 。 
2.3. 




































































1 交通 标志 简介 


交通 标志 是 一 种 图 形 与 文字 相 结 合 的 公共 标识 ， 用 图 形 符号 和 文字 传递 特定 信 
息 ， 用 以 管理 交通 、 指 示 行 车 方向 ， 以 保证 道路 畅通 与 行车 安全 的 设施 。 交 通 标 志 
有 很 显著 的 颜色 和 形状 特征 ， 起 到 指示 、 指 路 、 警 告 和 禁令 等 作用 ， 适 用 于 公路 、 
城市 道路 以 及 一 切 专 用 公路 ， 具 有 法 令 的 性 质 ， 车 辆 、 行 人 都 必须 遵守 。 

我 国 的 交通 标志 有 和 警告 标志 、 禁 令 标志 、 指 示 标 志 、 指 路 标志 、 旅 游 区 标志 、 
作业 区 标志 、 告 示 标 志 、 和 辅助 标志 8 种 。 下 文 对 禁令 标志 、 和 警告 标志 、 指 示 标 志 三 
类 标志 进行 简明 扼要 的 介绍 。 

1, 禁令 标志 

禁令 标志 起 到 禁止 某 种 行为 的 作用 ， 共 有 43 种 。 其 作用 是 禁止 或 限制 车 辆 、 
行人 交通 行为 除 个 别 标志 外 ， 颜 色 为 白 底 ， 红 圈 ， 红 杠 ， 黑 图 案 ， KREI, 形状 
为 贺 形 、 八 角形 、 顶 角 朝 下 的 等 边 三 角形 。 禁 令 标 志 设 置 在 需要 禁止 或 限制 车 辆 、 
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行人 交通 行为 的 路 段 或 交叉 口 附近 。 如 图 2-12 ( 见 彩 插 ) 所 示 的 禁令 标志 ， 红 色 


在 自然 环境 下 比较 少见 ， 故 以 红色 作为 特征 颜色 检测 禁令 标志 通常 具有 和 较 好 的 
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图 2-12 我 国 交 通 禁 令 标 志 图 











告 标志 起 警告 作用 ,共有 49 种 。 其 作用 是 警告 车 辆 、 行 人 注意 危险 地 点 。 
颜色 为 黄 底 、 黑 边 、 黑 图 案 ， 形 状 为 项 角 朝 上 的 等 边 三 角形 。 如 图 2-13 ( 见 彩 插 ) 
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a 左右 绕 行 ”b 左 侧 绕 行 ”c 右 侧 绕 行 施工 注意 危险 











图 2-13 我 国 交通 警告 标志 图 
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所 示 的 警告 标志 ， 由 于 外 沿 与 图 案 的 颜色 均 为 黑色 ， 某 些 图 案 面 积 较 大 的 标志 与 外 
沿 几 乎 相连 ， 给 检测 带 来 一 定 困难 。 

3. 指示 标志 

指示 标志 〈 图 2-14， 见 彩 搬 ) 起 指示 作用 ， 共 有 29 类。 其 作用 是 指示 车 辆 、 
行人 行进 。 指 示 标 志 颜 色 为 蓝 底 、 白 图 案 ; 其 形状 分 为 圆 形 、 长 方形 和 正方 形 ; 指 
示 标 志 设 置 在 需要 指示 和 车辆 、 行 人 行进 的 路 段 或 交叉 口 附近 。 指 示 标 志 没 有 特定 的 
外 沿 颜色 ， 某 些 标志 的 图 案 几 乎 将 蓝 底 分 为 了 几 个 部 分 ， 给 检测 带 来 一 定 困难 。 
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图 2-14 我 国 交 通 指示 标志 图 











其 他 国家 的 交通 标志 与 中 国 的 标志 非常 类 似 ， 只 是 警告 标志 的 颜色 与 中 国 不 
F, 通常 为 红色 外 沿 、 白 底 、 黑 色 图 案 


2. 3. 2 交 1 通 标志 识别 简介 


对 象 的 识别 ， 通 常 是 通过 提取 对 象 的 形态 、 结 构 等 特征 进行 辨别 ， 因 此 道路 图 
像 模式 的 识别 首要 条 件 是 进行 图 像 的 特征 提取 ， 然 后 将 提取 到 的 特征 量 参与 分 类 决 
策 。 提 取 到 的 特征 优 劣 与 图 像 识 别 正确 率 有 着 紧密 联系 ， 可 见 特征 提取 是 道路 图 像 
模式 识别 的 一 个 重要 前 提 条 件 。 

现今 使 用 的 特征 提取 方法 很 多 ， 包 括 经 验 特征 提取 法 、 主 成 分 分 析 法 、 神 经 区 
络 法 、 线 性 判别 分 析 法 等 ， 基 于 经 验 的 特征 提取 相 较 于 主 成 分 分 析 法 和 神经 网 络 
法 ， 其 提取 方法 简单 、 计 算 量 小 、 实 时 性 高 。 

交通 标志 牌 识别 系统 大 体 由 以 下 几 部 分 组 成 : 图 像 采集 系统 ;名 图 像 预 处 
H, 3) 交通 标志 检测 ; 由 交 通 标志 特征 提取 ; (9 交通 标志 识别 系统 。 交 通 标志 有 牌 检 
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测 与 识别 的 流程 图 如 图 2- 15 所 示 。 


图 像 采 集 图 像 预 处 理 sates nel 交通 标志 识别 




















图 2-15 交通 标志 处 理 流程 图 





其 中 ， 交 通 标志 牌 的 图 像 采 集 主 要 是 利用 安装 在 智能 车 上 的 摄像 头 来 获取 自然 
场景 下 的 图 像 ， 图 像 预 处 理 系统 是 为 了 消除 图 像 中 的 随机 噪声 和 运动 模糊 现象 ， 交 
通 标志 检测 模块 是 在 一 幅 图 像 中 定位 并 提取 出 交通 标志 有 牌 交通 标志 牌 的 特征 提取 
主要 是 提取 交通 标志 牌 的 形状 特征 、 颜 色 特 征 等 ， 交 通 标志 识别 主要 是 通过 提取 的 
特征 ， 使 用 机 器 学 习 方法 ， 对 交通 标志 进行 分 类 ， 从 而 识别 出 对 应 的 交通 标志 语义 
a 


Auto 




















2.3.3 交通 标志 牌 检 测 


在 交通 标志 牌 识别 系统 中 ， 交 通 标志 的 检测 是 至 关 重 要 的 一 步 ， 成 功 的 检测 是 
准确 识别 的 基础 。 近 年 来 ， 随 着 智能 车 研究 的 深入 ， 越 来 越 多 的 交通 标志 检测 方法 
被 提出 ， 其 检测 的 性 能 也 在 不 断 提升 。 经 典 的 交通 标志 检测 方法 主要 有 三 种 ， 分 别 
是 基于 颜色 的 检测 、 基 于 形状 的 检测 以 及 综合 颜色 和 形状 的 检测 。 

我 国 常 见 的 交通 标志 主要 有 三 大 类 ， 分别 是 禁 目 类、 警告 类 和 指示 类 。 标 志 中 
的 颜色 主要 以 红色 、 蓝 色 、 黄 色 、 黑 色 以 及 白色 为 主 ， 常 见 的 形状 有 圆 形 、 三 角 
形 、 甜 形 以 及 八 边 形 。 目 前 对 于 颜色 的 检测 方法 主要 是 针对 红色 、 黄 色 和 蓝 色 这 三 
种 颜色 ， 而 对 形状 的 研究 主要 针对 圆 形 、 三 角形 和 矩形。 下面 将 对 一 些 常用 检测 的 
方法 进行 简单 的 概述 。 

1. 基于 颜色 的 交通 标志 牌 检测 

交通 标志 具有 明显 的 颜色 特征 ， 于 是 很 多 交通 标志 检测 方法 都 运用 了 基于 颜色 
的 标志 检测 。 目 前 的 检测 方法 主要 针对 红色 、 蓝 色 和 黄色 。 

基于 颜色 的 交通 标志 检测 就 是 依据 标志 的 颜色 特征 ， 将 标志 从 图 片 中 检测 出 
来 ， 研 究 者 主要 是 在 RGB 和 HIS 这 两 种 颜色 空 su era ag vue 
Mirmehdi 遍历 所 有 像素 点 ， 成 功 将 蓝 色 及 红色 区 域 变 得 比 背 景 更 亮 ， 从 而 基于 颜 
色 实 现 交 通 标志 牌 的 检测 和 提取 。 

还 有 其 他 一 些 基 于 颜色 的 检测 方法 ， 例 如 区 域 增长 法 和 人 工 神经 网 络 法 等 

2. 基于 形状 的 交通 标志 牌 检测 

交通 标志 的 具有 特定 形状 特征 ， 主 要 有 以 下 四 种 ,三 角形 、 圆 形 、 和 矩形 、 八 边 
形 ， 其 中 八 边 形 可 归 类 为 圆 形 ， 如 图 2-16 所 示 ， 最 后 可 归纳 为 三 种 形状 : 圆 形 、 
三 角形 和 和 矩形 。 因 此 可 以 利用 标志 的 形状 特征 进行 交通 标志 的 检测 ， 目 前 的 检测 方 
KER SAVE. UE ATE , 
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OANG 


a) BJE b) 三 角形 c) 矩形 中 八 边 形 








图 2-16 各 种 形状 的 交通 标志 





目前 对 交通 标志 进行 检测 的 形状 方法 主要 有 以 下 几 种 。 

(1) 基于 边缘 的 方法 

基于 边缘 的 方法 很 多 ， 其 中 最 经 典 的 是 Hough 变换 。Kuo W J 等 人 在 检测 三 角 
形 和 圆 形 交 通 标志 的 时 候 ， 采 用 Hough 变换 的 方法 进行 检测 ， 在 噪声 、 形 变 和 部 
分 区 域 残 缺 的 情况 下 这 种 方法 取得 了 不 错 的 结果 ， 并 且 在 稳定 性 和 可 靠 性 方面 也 不 
错 。 但 是 该 方法 最 大 的 缺点 是 计算 复杂 度 高 ， 要 耗费 大 量 的 时 间 进 行 运算 ， 系 统 的 
实时 性 得 不 到 满足 。Barnes 提出 了 一 种 简单 的 Hough 变换 方法 ， 称 为 光线 对 称 性 算 
法 ， 这 种 方法 运算 量 比较 小 ， 运 算 速度 很 快 ， 但 是 它 的 缺陷 是 只 能 检测 圆 形 交 通 标 
志 ， 不 能 检测 三 角形 和 和 矩形 。 

(2) 拐角 提取 算法 

矩形 或 三 角形 类 交通 标志 有 -一 个 很 重要 特征 ， 就 是 它们 都 有 角度 ， 即 存在 扫 
角 ， 因 此 可 以 通过 抛 角 提 取 算 法 检测 交通 标志 。 目 前 拐角 提取 方法 主要 分 为 两 类 : 
一 类 是 利用 良好 的 边缘 检测 需 对 目标 边缘 进行 编码 ， 然 而 它 的 编码 操作 比较 复杂 ， 
而 且 检 测 器 的 良好 性 得 不 到 保证 ; 另 一 类 方法 是 基于 梯度 的 分 类 器 ， 分 类 器 通过 判 
断 梯 度 强 度 与 方向 的 变化 来 确定 当前 像素 点 是 否 为 执 角 ， 这 种 方法 可 以 将 图 像 中 的 
许多 拐角 提取 出 来 ， 当 然 也 会 提取 出 一 些 非 目 标的 拐角 ， 所 以 检测 的 错误 率 也 
很 高 。 

Rangarajan 等 提出 了 一 种 最 优 抛 角 检测 方法 ， 在 这 种 方法 中 最 重要 的 就 是 掩 腊 
设计 ， 在 检测 之 前 先 观察 目标 拐角 的 特点 ， 然 后 根据 拐角 的 特点 去 设计 掩 膜 ， 掩 膜 
设计 好 后 ， 与 图 像 作 卷 积 运算 将 图 像 中 的 拐角 检测 出 来 。 在 这 种 方法 上 ，Fscalema 
构造 了 检测 矩形 和 正三 角形 的 7 个 掩 膜 实验 ， 研 究 表 明 这 些 9 x9 的 掩 膜 能 够 较 准 
确 地 检测 交通 标志 的 拐角 ， 而 且 能 够 容忍 一 定 的 噪声 和 变形 ， 鲁 棒 性 较 好 。 

3. 结合 颜色 和 形状 的 交通 标志 检测 

M. Zadeh 等 首先 对 交通 标志 图 像 进行 颜色 分 制 ， 利 用 彩色 效 值 分 割 出 感 兴趣 的 
区 域 ， 然后 通过 形态 学 中 的 膨胀 与 腐蚀 操作 提取 区 域 的 边缘 ， 最 后 对 边缘 进行 跟踪 
和 几何 分 析 ， 提 取 存 在 交通 标志 的 目标 区 域 ， 该 检测 方法 的 缺点 是 对 噪声 非常 敏 
感 。 张 等 人 先 利用 非 彩色 分 解 技术 消除 交通 标志 图 像 中 的 非 彩 色 区 域 ， 然 后 将 图 像 
转换 到 HSI 空间 中 进行 颜色 分 割 ， 最 后 进行 边缘 链 码 跟踪 及 阔 值 化 处 理 ， 采 用 非 线 
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性 曲线 拟 合 检测 交通 标志 。 
2.3.4 EF SVM 的 交通 标志 牌 检测 


支持 向 量 机 SVM (Support Vector Machines) 是 Vapnike 等 人 在 20 世纪 90 年代 
初 建立 的 一 种 新 型 的 学 习 机 器 ， 它 是 在 以 解决 小 样本 机 器 学 习 问 题 为 目标 的 统计 学 
习 理论 (SLT) 的 基础 上 发 展 起 来 的 。SVM 建立 在 SLT 的 VC 维 理论 和 结构 风险 最 
小 化 原理 的 基础 上 ， 根 据 有 限 的 样本 信息 在 模型 的 复杂 度 和 学 习 能 力 之 间 寻 求 最 佳 
折 中 ， 获 得 最 好 的 推广 能 力 。 与 传统 方法 相 比 ，SVM 能 够 有 效 地 避免 过 学 习 、 欠 
学 习 、 维 数 灾难 以 及 陷入 局 部 极 小 值 等 问题 ， 所 以 它 成 为 机 需 学 习 的 一 个 新 研究 热 
点 。 文 持 向 量 机 作为 统计 学 习 理 论 的 杰出 代表 ， 在 分 类 和 模式 识别 等 方面 取得 了 很 
好 的 效果 ， 将 其 应 用 到 人 脸 识别 系统 中 ， 可 以 提高 其 成 功率 和 准确 率 。 

1. 图 像 预 处 理 

首先 将 交通 标志 牌 的 训练 样本 和 测试 样本 下 载 下 来 ， 进 行 解 压 ， 由 于 测试 程序 
不 支持 ppm 格式 的 图 片 ， 用 iSee 软件 把 图 片 统一 改 为 jpg 格式 。 

其 次 将 训练 样本 统一 压缩 为 程序 支持 的 68 x128 的 大 小 (可 以 用 iSee) ， 再 进 
行 批量 改名 ， 放 和 文件 夹 。 

2. 提取 特征 

HOG 特征 提取 方法 就 是 将 一 个 image: 

口 灰 度 化 【将 图 像 看 作 一 个 x，y，z ORKE) 的 三 维 图 像 ] 。 

口 采用 Gamma 校正 法 对 输入 图 像 进行 颜色 空间 的 标准 化 〈 归 一 化 ) 。 目 的 是 
调节 图 像 的 对 比 度 ， 降 低 图 像 局 部 的 阴影 和 光照 变化 所 造成 的 影响 ， 同 时 可 以 抑制 
噪声 的 干扰 。 

O 计算 图 像 每 个 像素 的 梯度 (包括 大 小 和 方向 ) 。 主 要 是 为 了 捕获 轮廓 信息 ， 
同时 进一步 弱化 光照 的 干扰 。 

口 将 图 像 划 分 成 小 cells (例如 6 x6 像素 /cell) 。 

O 统计 每 个 cell 的 梯度 直方 图 (不 同 梯度 的 个 数 )， 即 可 形成 每 个 cell 的 de- 
scriptor (描述 符 ) 。 

口 将 每 几 个 cell 组 成 一 个 block (1) (例如 3 x3 Â cell/block) , —“ block 内 
所 有 cell 的 特征 descriptor 串联 起 来 便 得 到 该 block 的 HOG 特征 descriptor。 

O 将 图 像 image 内 的 所 有 block 的 HOG 特征 descriptor 串联 起 来 就 可 以 得 到 该 
image (你 要 检测 的 目标 ) 的 HOG 特征 descriptor 了 。 这 个 就 是 最 终 的 可 供 分 类 使 
用 的 特征 向 量 了 。 

写 好 正 样本 的 txt 文件 ， 并 修改 代码 正 负 样本 数 、 正 负 样 本 文件 夹 路 径 等 。 正 
负 样 本 数 设置 为 1:5， 开 始 训练 ， 并 测试 ， 检 测 效 果 如 图 2-17 所 示 。 

通过 测试 ， 检 测 结果 不 理想 。 虽 然 可 以 检测 到 交通 标志 牌 ， 但 存在 很 多 误 报 的 
情况 。 如 图 2-18 所 示 。 
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图 2-18 误 报 较 多 的 检测 效果 





为 了 减少 误 报 ， 采 用 增加 hard 样本 ， 即 误 报 样本 加 入 负 样 本 中 ， 进 行 训练 ， 
更 新 SVM 模型 。 随 着 hard 的 增加 误 报 会 减少 ， 但 在 上 面 这 种 图 很 难 完全 除 掉 。 而 
且 随 着 hard 数量 的 增加 ， 还 会 使 一 些 图 中 原本 可 以 识别 到 的 交通 标志 牌 识别 不 到 
造成 漏 检 。 如 图 2-19 所 示 。 

通过 使 用 SVM 进行 交通 标志 牌 的 检测 ， 可 以 看 出 ， 检 测 效果 与 检测 窗口 的 大 
小 密切 相关 ， 同 时 SVM 本 身 存 在 局 限 。 


40 


第 2 章 视频 图 像 处 理 在 智能 驾驶 中 的 应 用 @e@e@ 








图 2-19 增加 hard 样本 后 的 检测 效果 


2.3.5 交通 标志 的 识别 


图 像 识 别 ， 可 认为 是 图 像 的 模式 识别 ， 它 是 模式 识别 技术 在 图 像 领域 中 的 具体 
运用 。 模 式 识 别 的 研究 对 象 基本 上 可 概括 为 两 大 类 : 一 类 是 有 直觉 形象 的 ， 如 图 
像 、 相 片 、 图 案 、 文 字 等 ; 一 类 是 没有 直觉 形象 而 只 有 数据 或 信息 波形 ， 如 话 声 、 
心 电 脉 冲 、 地 震波 等 。 但 是 ， 对 模式 识别 来 说 ， 无 论 是 数据 、 信 和 号 还 是 平面 图 形 或 
立体 景物 ， 都 是 除 掉 其 物理 内 容 而 找 出 它们 的 共性 ， 把 具有 统一 共性 的 归 为 一 类 ， 
而 具有 另 一 种 共性 者 归 为 另 一 类 。 模 式 识别 研究 的 目的 是 研制 能 够 自动 处 理 某 些 信 
息 的 机 器 系统 ， 以 便 代 蔡 人 完成 分 类 和 辨识 的 任务 。 狭 义 地 讲 ， 图 形 识别 研究 的 模 
式 就 是 图 像 。 

对 于 不 同 的 图 像 识别 领域 有 不 同 的 识别 方法 ， 目 前 已 提出 的 识别 方法 包括 : 模 
板 匹 配 、 聚 类 分 析 、 模 糊 模式 识别 方法 、 基 于 神经 网 络 的 图 像 识 别 方法 、 基 于 决策 
理论 的 判别 方法 和 基于 支持 向 量 机 的 判别 方法 等 。 

模板 匹配 法 就 是 对 每 个 竺 识别 的 类 别 绘 出 典型 标准 模板 作为 识别 标准 ， 然 后 将 
竺 识别 的 类 与 标准 模板 相 比较 ， 从 而 做 出 判断 。 这 种 比较 的 实现 是 通过 将 一 个 标准 
的 图 像 与 输入 的 图 像 在 一 个 分 类 器 中 进行 相关 运算 ， 根 据 随 机 信和 号 分 析 的 知识 可 
知 ， 在 自 相 关 时 ， 出 现 主 峰值 ， 即 此 时 待 识别 物体 与 标准 图 像 匹 配 ， 通 过 一 个 立 值 
作为 一 个 判决 规则 ， 即 可 实现 相关 匹配 识别 。 

若 用 f(x,y) 表示 采 集 的 与 已 知 某 模板 图 像 相 匹 配 的 输入 图 像 ，F(%,y) 表示 预 
先 设 定 的 标准 模板 序列 ，Q(x,y) 表示 在 相关 融 比 较 后 的 输出 ， 则 模板 匹配 法 可 用 
图 2-20 表示 。 

设 随 机 变量 用 x; ，x,，yi ，Yys 表示 ， 则 分 类 器 的 输出 为 
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| O(x,y) 
ies 8 识别 结果 
标准 模板 图 像 


图 2-20 模板 匹配 法 模式 识别 系统 框图 





F(x,y) 









MELT 








B(x, -22,71 - y2) = [ [fey Fle + Ca - a) sy + (y1 - y2) J drdy 
(2-12) 

= x Ty YL et oe) 时 ， D0,0) =f(x,y) F(x,y) dxdy 
当 f(x,y) =FCx,y) 时 ， 瑟 (0,0) =f(x,y)f(x,y) dudy 
即 为 输入 信息 的 自 相 关 函 数 ， 并 且 有 B(0,0) 三 B(x,y)， 由 此 可 见 P(x,y) Æ D 
(0,0) 处 出 现 主 峰 ， 在 其 他 处 可 能 出 现 副 峰 ， 只 要 这 些 副 峰 不 等 于 主峰 就 可 用 适当 
的 靖 值 将 其 鉴别 ， 这 种 模板 匹配 法 既 可 在 时 域 进 行 ， 也 可 在 频 域 进行 ， 既 可 进行 整 
幅 图 像 的 匹配 ， 也 可 在 一 幅 大 的 图 像 中 找到 与 小 模板 上 的 方向 、 形 状 相同 的 图 像 ， 
这 就 要 记录 在 大 图 像 中 找到 的 目标 的 位 置 。 这 种 方法 的 优点 是 在 一 定 条 件 下 ， 其 错 
误 概 率 和 拒 识 率 最 小 ， 适 用 于 图 形 匹配 法 、 文 字 匹 配 法 等 噪声 较 小 的 地 方 ， 缺 点 是 
对 识别 系统 存储 要 求 高 ， 识 别 时 计算 量 大 ， 另 外 对 噪声 敏感 ， 所 以 不 适用 于 文本 的 
图 像 。 

1. 统计 模式 识别 方法 

统计 模式 识别 的 流程 如 图 2-21 所 示 ， 输 入 的 图 像 信 息 是 计算 机 能 识别 的 数字 
As, W BMP AUR, JPEG AVR; 图 像 处 理 的 目的 是 对 采集 的 图 像 滤波 ， 恢 复 使 之 
有 利于 从 原始 信号 中 提取 能 反映 图 像 本 质 的 特征 信息 ; 最 后 是 识别 分 类 ， 并 输出 识 


别 结 














在 确定 识别 判别 函数 时 需要 大 量 的 各 种 类 别 的 图 像样 本 ， 通 过 对 样本 特征 的 计 
算 统 计 从 而 设 定 识 别 参数 ， 也 就 是 所 说 的 统计 学 习 过 程 。 


图 像 信息 z 特征 提取 识别 与 分 类 结果 输出 
图 像样 本 特征 提取 


图 2-21 统计 模式 识别 系统 框图 






































假设 对 图 像 处 理 后 已 经 提取 了 NN 个 特征 ， 而 图 像样 本 集 分 为 m 类 ， 则 识别 图 
像 的 模式 可 以 认为 是 N 位 向 量 空 间 的 向 量 X， 即 . 
模式 类 别 为 wi、ws、w3、…、w， 识 别 的 内 容 束 是 判断 了 属于 ww 中 的 哪 一 
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类 。 其 中 该 图 像 模式 识别 有 两 个 关键 问题 : 一 是 特征 提取 的 方法 和 特征 选择 的 方 
法 ; 二 是 判别 函数 的 选取 ， 如 : RRE w, w, w, ©, wn m PRG, WA 
Di (x), D(x) ce D(x*) 共 m 个 判别 函数 。 如 果 针 属于 第 i 类 ， 则 有 D(x) >D, 
(x) =1,2,3,…,m;j 关 i 让; 当 D;(x) =D; (x), WRR X EEF w; 又 属于 w 类 ， 
该 判别 函数 失效 ， 必 须 考 虑 其 他 特征 。 

2. 基于 神经 网 络 的 图 像 识 别 方法 

前 面 所 提 到 的 统计 模式 识别 方法 虽然 在 一 定 程度 上 能 解决 图 像 识 别 领 域 的 实际 
问题 ,但 是 这 些 识别 方法 需要 大 量 的 计算 统计 ,识别 速度 慢 ， 判 别 函 数 选取 困难 ， 
没有 自学 习 功 能 ， 严 重 影响 了 其 在 图 像 识 别 领域 的 应 用 。 随 着 人 工 神经 网 络 技术 的 
发 展 ， 模 式 识别 技术 也 出 现 了 一 种 新 型 的 识别 方法 : 基于 人 工 神经 网 络 的 模式 识别 
方法 。 在 一 定 程度 上 神经 网 络 的 识别 方法 不 同 于 前 面 提 到 的 模板 匹配 法 、 统 计 模式 
识别 法 、 结 构 模 式 识别 法 、 模 糊 识别 法 和 句法 模式 识别 ， 但 又 在 一 定 程度 上 与 这 几 
种 方法 又 有 许多 相似 的 地 方 。 图 2-22 给 出 神经 网 络 应 用 于 图 像 识别 的 一 般 模型 。 


图 像 信息 预 处 理 神经 网 络 识别 识别 结果 


图 2-22 神经 网 络 应 用 于 图 像 识 别 的 一 般 模型 


神经 网 络 与 传统 的 统计 模式 识别 在 很 多 方面 是 有 联系 的 ， 这 种 联系 不 但 在 于 它 
们 都 是 试图 从 样本 数据 出 发 完成 模式 识别 问题 ， 更 重要 的 是 它们 在 方法 上 有 一 定 的 
等 价 关 系 。 比 如 单 层 的 感知 机 模型 实际 就 是 一 种 线性 分 类 器 ， 多 层 感 知 机 则 可 以 看 
作 它 在 某 种 非 线 性 的 推广 和 发 展 ， 例 如 自 组 织 映射 网 络 如 果 使 其 邻 域 交互 作用 设 为 
F, MENT C 均值 聚 类 算法 。 同 时 结合 模糊 算法 构成 的 模糊 神经 网 络 与 模糊 模 
式 识别 方法 又 有 很 多 相似 的 地 方 。 所 以 神经 网 络 的 模式 识别 并 不 能 作为 模式 识别 理 
论 中 不 同 于 统计 模式 识别 、 结 构 模 式 识别 等 的 新 的 识别 方法 ,但 是 由 于 神经 网 络 识别 
方法 在 实践 中 得 到 越 来 越 广 的 应 用 ， 可 以 看 作 是 传统 模式 识别 方法 的 一 种 推广 和 
改进 。 

人 工 神经 网 络 方法 实现 模式 识别 ， 可 人 处理 一 些 环境 信息 十 分 复杂 、 背 景 知识 不 
清楚 、 推 理 规则 不 明确 的 问题 ， 允 许 样品 有 较 大 的 缺损 、 畸 变 ， 且 运行 速度 快 ， 自 
适应 性 能 好 ， 具 有 较 高 的 分 辨 率 。 神 经 网 络 方法 的 缺点 是 其 模型 在 不 断 丰 富 完 善 
中 ， 理 论 发 展 还 不 够 成 熟 。 

当 神 经 网 络 用 于 分 类 时 ， 首 先 要 选择 各 类 的 样本 对 网 络 进行 训练 ， 每 类 样本 的 
个 数 要 近似 相等 。 其 原因 在 于 一 方面 防止 训练 后 网 络 对 样本 多 的 类 别 响 应 过 于 敏 
感 ， 而 对 样本 数 少 的 类 别 不 敏感 。 另 一 方面 可 以 大 幅度 提高 训练 速度 ， 避 免 网 络 陷 
和 人 局 部 极 小 点 。 


2.3.6 基于 SVM 的 交通 标志 牌 的 识别 
支持 向 量 机 (SVM) 是 一 种 在 内 核 特征 空间 中 训练 的 线性 分 类 器 ， 其 建立 以 
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结构 风险 最 小 和 统计 学 理论 为 基础 。SVM 属于 有 监督 的 机 器 学 习 方 法 ， 能 够 将 结 
构 风 险 最 小 化 ， 因 而 是 一 种 良好 的 分 类 需 。SVM 分 类 器 在 图 像 识 别 和 检索 、 运 动 
检测 、 光 学 字符 识别 和 手写 字符 识别 等 方面 具有 明显 的 优势 ， 因 此 选用 基于 SVM 
的 分 类 器 对 交通 标志 牌 进行 识别 。 

使 用 前 一 节 交 通 检测 中 所 下 载 的 实验 样本 库 ， 针 对 每 个 标志 牌 收集 正 样本 和 和 负 
样本 ， 采 用 HOG 特征 进行 训练 ， 再 利用 训练 得 到 的 SVM 分 类 模型 ， 进 行 分 类 识 
别 。 检 测 效果 图 如 图 2-23 所 示 。 





























图 2-23 基于 SVM 的 识别 

















再 根据 检测 效果 图 得 到 从 原 图 中 截取 出 相 
应 的 交通 标志 图 ， 如 图 2-24 所 示 。 同 时 ， 根 
据 训 练 得 到 SVM 分 类 器 ， 识 别 得 出 各 交通 标 
志 图 的 语义 信息 ， 如 图 2-25 所 示 。 

通过 实验 分 析 ， 对 于 在 交通 标志 检测 效果 
比较 好 的 图 片 来 说 ， 其 识别 效果 相对 有 效 准 “图 2-24 识别 得 到 的 交通 标志 图 
确 。 但 对 于 检测 效果 不 好 的 图 片 来 说 ， 效 果 就 
相对 不 太 理想 。 要 想得到 好 的 效果 ， 还 得 加 强 交通 标志 牌 检测 的 精准 度 。 


























ity road 


limit 7B 




















FA 2-25 识别 得 到 的 交通 标志 图 











交通 标志 识别 效果 取决 于 检测 效果 ， 为 了 提高 识别 的 准确 度 ， 还 需 把 各 个 样本 
的 数目 扩大 一 些 ， 让 样本 包括 各 种 情况 下 的 标志 有 牌 ， 这样 才能 把 识别 的 效果 提升 


44 





第 2 章 视频 图 像 处 理 在 智能 驾驶 中 的 应 用 @ oo 





i, 
2.4 交通 信号 灯 的 检测 


智能 驾驶 是 未 来 发 展 的 趋势 ， 而 交通 灯 的 自动 检测 与 识别 仍然 是 重要 的 挑战 。 
其 次 使 用 交通 灯 的 识别 ， 能 帮助 盲人 或 有 视觉 障碍 的 人 : 这 些 系统 往往 是 在 移动 设 
备 上 开发 的 。 因 此 ， 运 用 计算 机 视觉 和 模式 识别 等 技术 ， 深 入 对 交通 灯 的 检测 和 识 
别 ， 是 智能 驾驶 中 的 研究 热点 问题 。 

2012 年 ，Kim，K.T 提 出 建立 一 个 无 线 网 络 ， 定 期 使 用 broadcasts 调度 信息 获 
取 交 通 灯 的 方法 。 同 样 ， 交 通 灯 也 可 作为 一 个 轻型 道路 车 辆 通信 设备 。2010 年 ， 
Premachand 等 人 提出 了 一 种 使 用 高 速 摄像 机 实现 交通 灯 和 车 辆 之 间 通 信 的 方法 。 
但 此 类 方法 都 需要 对 城市 交通 灯 网 络 进 行 相应 的 智能 化 改造 ， 往 往 面临 更 大 的 
挑战 。 

目前 对 交通 灯 检 测 和 识别 的 研究 主要 利用 摄像 头 采集 图 像 ， 进 行 模式 识别 。 

2010 年 ，OmachiM 等 在 标准 化 的 色彩 空间 进行 颜色 分 割 ， 然 后 提取 边缘 ， 最 
后 通过 霍 夫 圆 变换 检测 信号 灯 。 该 算法 主要 针对 圆 形 信号 灯 的 检测 ， 并 且 局 限于 水 
平方 向 排列 的 信号 灯 。 

2011 年 ，J. Levison 等 通过 提前 获取 数据 信息 和 交通 信号 灯 的 位 置信 息 ， 在 线 
地 检测 交通 信号 灯 。 此 算法 对 构建 系统 要 求 很 高 ， 并 且 需 要 有 大 量 的 先 验 信息 作为 
支撑 。 

2013 年 ， 谷 明 琴 等 采用 6 个 方向 和 6 个 尺度 的 Gabor 小 波 ， 通 过 对 交通 信号 灯 
候选 区 域 小 波 变 换 ， 再 采用 二 维 独 立 分 量 分 析 方 法 降 维 处 理 后 提取 特征 ， 而 后 分 类 
识别 。 该 方法 识别 率 较 高 ， 且 可 以 排除 误 检 。 

2013 年 Wang Z. 等 采用 训练 样本 库 ， 在 获取 交通 信号 灯 候 选区 域 后 ， 采 用 概 
率 模板 匹配 算法 识别 交通 信号 灯 。 

2013 年 ，YingJie 等 根据 交通 信号 灯 及 其 背 板 的 几何 特征 检测 交通 信号 灯 ， 然 
后 再 由 色彩 空间 确定 信号灯 的 颜色 信息 。 此 算法 只 是 检测 圆 形 灯 ， 且 误 检 率 比 
较 高 。 

2014 年 ，Trehard 等 提出 了 一 个 相互 作用 的 多 模型 过 滤器 来 跟踪 交通 灯 的 位 置 
和 其 状态 。 位 置 估 计 精 度 随 迭代 次 数 的 增加 而 与 交通 灯 的 距离 有 着 密切 的 关系 。 
2.4.1 颜色 分 割 

交通 信号 灯 的 颜色 特征 是 非常 明显 的 。 并 且 目 前 普遍 采用 的 是 LED 灯 ， 其 可 
见 度 较 高 ， 在 持续 光照 、 阴 天 、 下 雾 、 下 雨 的 恶劣 天 气 条 件 下 都 能 保持 很 好 的 可 见 
度 。 因 而 ， 选 择 合适 的 色彩 空间 分 割 彩色 图 像 ， 对 定位 交通 信号 灯 、 消 除 噪声 ， 有 
很 大 的 作用 。 
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下 面 介绍 色彩 空间 相关 内 容 。 

色彩 是 人 的 眼睛 对 于 不 同 频率 的 光线 的 不 同感 受 ， 色 彩 既 是 客观 存在 的 〈 不 
同 频率 的 光 ) ， 又 是 主观 感知 的 ， 有 认识 差异 。 “色彩 空间 ”一 词 源 于 西方 的 
“ColorSpace”， 又 称 为 “ 色 域 ” ， 色 彩 学 中 ， 人 们 建立 了 多 种 色彩 模型 ， 以 一 维 、 
二 维 、 三 维 甚至 四 维 空间 坐标 来 表示 某 一 色彩 ， 这 种 坐标 系统 所 能 定义 的 色彩 范围 
即 色彩 空间 。 在 图 形 图 像 处 理 中 ， 和 常用 的 色彩 空间 有 RGB HIS, HSV, YCrCb 等 。 

1. RGB 色彩 空间 

RGB 色彩 空间 用 R、G、B 三 种 
颜色 分 量 来 表示 数字 图 像 像 素 的 颜 
色 值 。 任 何 颜色 C 都 可 用 光电 三 原 青 
色 的 三 种 基色 配 出 : C =rR +gG + on 
bB, 其 中 , r g, b= HW LE 
例 系数 ,满足 r+g+b=1; R, G, 
B 为 三 基色 的 单位 ,分 别 为 1、 
4. 5907 0.0601 光 瓦 。 用 光电 三 原 
色 混 色 ， 满 足 加 色 原 理 。RGCB 模型 
可 用 一 个 单位 立方 体 来 表示 
(图 2-26， 见 彩 插 )。 图 中 ，R、C、 
B 位 于 3 个 角 上 ;， 青 、 深 红 和 黄 位 于 另外 3 个 角 上 ， 黑 色 在 原点 处 ， 白 色 位 于 离 原 
点 最 远 的 角 上 。 

2. HIS 色彩 空间 

HIS 色彩 空间 通过 色调 (Hue), ME (Saturation) 和 灰 度 (Intensity) KK 
示 物 体 的 颜色 。 它 实际 表示 了 一 系列 色彩 空间 ， 包 括 HSL (Lightness), HSV 
(Value), HCI (Chroma/Colorfulness) 等 。 大 多 数 这 类 色彩 空间 是 RGB 空间 的 线 
性 转换 ， 所 以 ,它们 是 设备 相关 的 和 感知 非 线 性 的 。 它 们 的 优点 在 于 定义 色彩 时 
非常 直观 。 为 了 更 直观 地 了 解 HIS 色彩 空间 ， 下 面 给 出 了 HIS 空间 的 示意 图 
(图 2-27， 见 彩 插 ) 。 

这 类 色彩 空间 用 亮度 和 色彩 信息 (色调 和 饱和 度 ) 来 表示 色彩 ， 便 于 图 像 处 
理 。 把 RGB 精确 无 误 地 转换 成 亮度 、 色 调 、 饱 和 度 取决 于 设备 特性 ， 所 以 存在 很 
多 这 类 的 转换 公式 ， 每 一 个 相 比 别 的 转换 公式 在 一 些 特殊 应 用 上 会 做 得 更 好 。 

RGB 到 HIS 空间 的 转换 公式 : 


























蓝 
(0, 0, 1) 
mél. 


(1,0, 1) 


图 2-26 RGB 彩色 立方 体 示意 图 
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图 2-27 HIS 色彩 空间 示意 图 





3 . 
S=1 “Cha Cony te (2-15) 
1=5(R+64B) (2-16) 
RGB 到 HSV 空间 的 转换 公式 : 
V =max(R,G,B) (2-17) 
V-min(R,G,B)]/V, Vz0 
S= [ min ( 9 b )] ’ (2-18) 
0, V=0 
(G-B) x60/S, V=R 
H=3180+(B-R) x60/S, V=G (2-19) 
240 + (R - G) x60/S, V=B 


Æ H <0, M] H =H +360, 
RGB 到 HLS 空间 的 转换 公式 : 


Vinx =max(R,G,B) (2-20) 
an =min(R,G,B) (2-21) 
L= ( Vmax + Vmin) 2 (2-22) 
(V max a Vmin) /( are + Vmin) L<0.5 
S= (2-23) 
(Vaat = Vain) /AL2 = (Vinas + Vmin) ] L>=0.5 
(G-B) x60/S Vaan =R 
H=2180+(B-R)x60/S Vip, =G (2-24) 


240 +(R-G) x60/S Vax =B 
Æ H<0, WW H=H +360, 
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3. Luv 和 Lab 色彩 空间 

CIE (国际 照明 委员 会 ) Lw 和 CIE Lab 是 基于 人 类 视觉 的 CIE 色彩 测量 系统 。 
它们 都 是 设备 无 关 的 ， 是 视觉 感知 近似 线性 的 。 

这 两 个 色彩 空间 是 为 感觉 均匀 而 设计 的 一 个 国际 标准 ， 其 目的 是 使 人 感受 的 颜 
色差 别 等 同 对 应 CIE 色彩 空间 中 相等 的 欧 几 里 得 距离 ， 即 所 有 颜色 都 按照 其 实验 测 
得 的 相互 之 间 知 觉 色 差 的 多 少 ， 尽 可 能 均匀 地 分 布 于 色彩 空间 。 


























其 中 , 工 通 道 表示 亮度 值 ，a、5、u、v 表示 由 色调 和 饱和 度 形 成 的 色 感 知 属 
性 。 相 应 的 转换 公式 如 下 : 
RGB 到 Luv 空间 的 转换 公式 : 
从 RGB 到 XYZ 色彩 空间 的 转换 依 推 荐 标准 不 同 ， 有 如 下 关系 : 
ITU - RBT. 601 在 光源 C (钢丝 光源 模拟 普通 日 光 ， 色温 6774K， 波 长 为 380 ~ 
770nm) 下 : 
X) (0.606881 0.173505 0.200336) (R 
o =| 0.298912 0.586611 0.114478 |x| G (2-25) 
Z 0 0. 066097 1.116157) \B 
ITU - RBT. 709 在 标准 光源 DOS ( 即 色温 为 6504K 的 日 光 ) F: 
X\ (0.412411 0.357585 0.180454) (R 
o =|0.212649 0.715169 0.072182 |x| G (2-26) 
Zj (0.019332 0.119195 0.950390) (B 

















在 这 两 个 彩色 空间 中 每 一 个 点 都 能 看 成 (上 ,a* ,05” ) 或 (L* u” ,v” ) 三 维 色 彩 
空间 中 的 一 点 ， 因 此 两 个 颜色 的 区 别 能 够 通过 两 个 彩色 点 间 的 欧 几 里 得 距离 表示 ， 
这 两 种 彩色 点 的 区 别 描述 如 下 .: 

对 CIE(L* a* b* ) 空 间 . 











AE, = V(AL*) + (Aa* )? + (Ab* )? (2-27) 
对 CIE(L* u*v* ) 空 间 : 
AE, = V(AL* )? + (Au* )? + (Av* )? (2-28) 





在 彩色 图 像 分 割 中 利用 欧 几 里 得 距离 表达 人 类 感知 颜色 区 别 的 能 力 是 十 分 重要 
WK, (L* ,a* ,6b*) 和 (L* ,u*,v* ) 是 两 个 相似 的 颜色 模型 ,它们 能 很 好 地 满足 人 了 眼 
睛 对 计算 机 处 理 的 敏感 性 。 

4. YCbCr 色彩 空间 

YCbCr 色彩 空间 是 由 YUV 色彩 空间 派生 而 来 ， 它 们 都 产生 一 种 亮度 分 量 信和 号 
和 两 种 色 度 分 量 信号 ， 而 每 一 种 变换 使 用 的 参数 都 是 为 了 适应 某 种 类 型 的 显示 设 
备 。 其 中 ，YUV 适用 于 PAL 和 SECAM 彩色 电视 制式 ， 而 YCbCr 适用 于 计算 机 用 
的 显示 器 〈 即 数字 标准 ) 。 转 换 公 式 如 下 : 

Y =0. 299 x R +0. 587 xG +0. 114 x B (2-29) 
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Cr=(R-Y) x0. 713 +128 (2-30) 
Cb =(B-Y) x0. 564 +128 (2-31) 
R=Y+1.402 x (Cr-128) (2-32) 
G =Y-0. 34414 x (Cb -128) -0. 71414 x (Cr -128) (2-33) 
B=Y+1.772(Cb - 128) (2-34) 


2.4.2 基于 颜色 和 形状 的 交通 信号 灯 检 测 识别 


交通 信号 灯 分 为 箭头 形 和 圆 形 (国外 以 圆 形 交 通信 号 灯 为 主 ) 两 种 ， 而 交通 
言 号 灯 的 背 板 的 安装 差异 却 较 大 。 现 已 有 的 大 多 数 研 究 主 要 针对 圆 形 交 通信 号 灯 ， 
只 要 准确 定位 其 位 置 ， 判 定 其 颜色 信息 ， 就 完成 了 对 交通 信号 灯 的 识别 。 然 而 对 于 
目前 应 用 越 来 越 广泛 的 箭头 形 交 通信 号 灯 ， 仅 仅 获 取 位 置 和 颜色 信息 是 不 够 的 ， 还 
要 判定 其 状态 信息 ， 才 能 完成 识别 的 过 程 。 

1. 基于 颜色 特征 的 交通 灯 分 割 

基于 颜色 特征 的 交通 灯 的 检测 识别 算法 利用 了 三 种 颜色 的 交通 灯 都 要 发 出 特定 
色彩 光 的 特点 ， 其 算法 核心 在 于 选择 某 个 色彩 空间 对 交通 灯 的 颜色 进行 描述 。 文 献 
[28] Æ HSV 颜色 空间 对 三 种 交通 灯 取 样 ， 并 对 三 种 色彩 交通 灯 的 五 值 (色调 ) 
MSE (饱和 度 ) 建立 三 个 二 维 高 斯 模型 ， 实 验 表明 该 算法 具有 较 高 的 识别 准确 
率 ， 但 是 因为 每 个 像素 都 需要 计算 其 三 个 高 斯 分 布 的 值 ， 计 算 量 很 大 ， 无 法 达到 实 
时 处 理 。 

由 于 交通 灯 只 有 红 、 黄 、 绿 三 种 颜色 ， 只 需 找 到 对 三 种 颜色 描述 清晰 的 色彩 空 
间 ， 在 该 空间 查找 出 交通 灯 候 选区 域 ， 然后 利用 交通 灯 在 形状 上 的 典型 特征 对 候选 
区 域 进行 确认 ; 最 后 使 用 统计 方法 对 识别 结果 进行 验证 ， 从 而 完成 交通 灯 的 识别 。 

2. 图 像 预 处 理 

如 图 2-28 所 示 ， 由 于 拍摄 的 交通 灯 图 像 效 果 会 随 着 光照 和 天 气 等 不 同 条 件 的 
变化 有 波动 ， 为 了 减少 波动 对 于 实验 结果 的 影响 ， 将 常规 的 图 像 从 传统 的 RGB 空 
间 转 换 到 归 一 化 的 RGB 空间 。 

























































































图 2-28 图 像 预算 法 流程 图 


假设 图 像 中 某 点 的 红 、 绿 、 蓝 的 通道 值 分 别 为 >、g、2!， 归 一 化 后 红 、 绿 、 蓝 
的 通道 值 分 别 为 尺 、C、B8， 则 它们 的 关系 如 下 : 
R=G=B=0 s=0 











R= g- pa% hh 
S S S 
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HP, s=rtg +b, 经 过 这 一 步骤 处 理 的 图 像 如 图 2-29 (LR) 所 示 。 








图 2-29 JA 


在 归 一 化 的 RGB 图 像 的 基础 上 ， 下 一 步 是 选 出 候选 区 域 ， 就 本 书 所 用 的 样本 
而 言 ， 候 选区 域 的 ReB 值 在 满足 以 下 关系 时 会 有 较 好 的 效果 ， 效 果 如 图 2-30 (I 


彩 插 ) 所 示 。 


一 化 RGB 效果 图 




















100 < R < 130,100 <G<150,B <90 
R <220,G >90,B >85 
90 < R <170,G<120,B <50 





图 2-30 挑选 候选 区 域 图 
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实验 测试 

本 实验 使 用 的 操作 系统 为 Windows 8.1 中 文 版 ， 使 用 的 软件 为 Vision Studio 
2010 专业 版 , 使 用 的 OpenCV 版 本 为 OpenCV2. 4. 10 。 我 们 这 次 实验 的 机 器 配置 的 
CPU 为 Inter Core i5 -4210M 2. 60GHz， 内 存 为 4.00GB ， 系 统 为 基于 x64 处 理 髓 的 
64 位 操作 系统 。 

本 实验 使 用 的 样本 库 由 200 张 正 样本 和 1800 张 负 样本 组 成 。 其 中 正 样本 图 片 
大 小 为 24 x24 像素 ， 负 样本 图 片 大 小 为 320 x240 像素 ， 我 们 的 样本 图 片 均 来 自 于 
网 址 www. lara. prd. fr/benchmarks/trafficlightsrecognition。 训 练 所 使 用 正 样 本 数量 为 
200 张 ， 负 样本 数量 为 700 GK (其 中 100 张 为 hard example, 24 x24 像素 ) ， 测 试 样 
本 数量 为 20 张 ， 对 图 片 的 预 处 理 过 程 如 图 2-28 所 示 。 

在 训练 好 分 类 器 后 ， 我 们 开始 对 测试 样本 进行 测试 效果 ， 测 试 效果 如 图 2-31 
(OLR) 和 图 2-32 (DLR) 所 示 。 

















到 2-31 效果 较 好 的 测试 图 





由 图 2-32 可 知 ， 有 的 车 灯 的 形状 与 红绿灯 的 形状 非常 相似 ， 所 以 会 出 现 把 汽 
车 的 后 车 灯 当 作 是 红 灯 的 情况 。 

由 图 2-33 可 知 ， 当 交通 灯 离 得 过 远 时 ， 是 很 难 检测 出 来 的 。 

从 本 次 的 实验 结果 分 析 可 以 得 到 ， 这 次 实验 交通 灯 检 测 效果 与 样本 的 大 小 、 正 
负 样 本 数 的 比例 、 图 片 特征 的 维 数 、 图 片 的 预 处 理 效果 有 很 大 的 关系 。 其 中 图 片 预 
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图 2-32 误 检 效果 图 





2-33 漏 检 的 测试 图 


处 理 在 前 三 项 的 处 理 效果 不 是 很 好 时 ， 依 然 可 以 使 检测 的 精确 度 保持 在 一 定 水 准 ， 
图 片 的 预 处 理会 挑选 出 红色 、 绿 色 、 黄 色 的 区 域 作为 红绿灯 的 候选 区 域 ， 排 除 掉 其 
他 颜色 的 区 域 ， 然 后 再 进行 HOG 算法 的 检测 ， 这 一 做 法 对 降低 误 检 效果 显著 。 但 
在 拍摄 时 光照 过 亮 、 距 离 过 远 等 的 情况 下 ， 会 使 交通 灯 的 颜色 有 所 变化 ， 导 致 会 把 
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交通 灯 的 一 部 分 过 滤 掉 从 而 检测 不 到 。 当 车 在 开动 的 过 程 中 尤其 是 在 拐弯 时 ， 所 拍 
摄 到 的 灯 的 形状 会 改变 ， 这 也 会 导致 检测 不 到 。 


2.5 智能 车 其 他 视频 图 像 处 理 


在 智能 驾驶 中 应 用 机 融 视 觉 技 术 ， 机 顺 视 觉 技 术 必须 具备 实时 性 、 和 鲁 棒 性 和 实 
用 性 这 三 个 特点 。 实 时 性 要 求 机 器 视觉 系统 的 数据 处 理 必须 与 车 辆 的 高 速 行驶 同步 
进行 ; 鲁 棒 性 是 要 求 智能 车 辆 对 不 同 的 道路 环境 如 高 速 公路 、 市 内 公路 、 普 通 公路 
等 ， 复 杂 的 路 面 环境 如 路 面 的 宽度 、 颜 色 、 纹 理 、 弯 道 、 坡 度 、 坑 洼 、 障 碍 与 车 流 
等 ， 各 种 天 气 如 睛 、 阴 、 雨 、 雪 、 筋 等 均 具 有 良好 的 适应 性 ; 实用 性 指 智能 车 辆 能 
够 为 普通 用 户 所 接受 。 

机 器 视觉 处 理 软件 系统 主要 是 担负 着 障碍 物 识 别 检测 、 交 通信 号 识别 检测 、 交 
通 图 案 识 别 检测 、 公 路 边缘 识别 检测 、 弯 道 弧度 识别 检测 和 前 方 车 辆 距离 速度 检测 
及 路 面 坑 洼 坡度 识别 检测 这 些 主 要 信息 的 提取 ， 在 这 些 信 息 数据 的 基础 上 进行 道路 
环境 的 三 维 重建 。 

公路 边缘 识别 检测 关系 着 汽车 能 否 正确 识别 公路 ， 尤 其 是 缺乏 交通 图 案 的 低 等 
级 公路 。 

交通 图 案 、 道 路 标识 、 交 通信 号 的 识别 检测 。 交 通 图 案 包 括 常 见 的 谢 马 线 、 车 
道 线 、 篆 头等。 这 些 交 通 图 案 都 是 有 固定 的 颜色 〈 比 如 斑马 线 都 是 白色 的 ) A 
定 的 形状 ， 因 此 对 它们 的 识别 只 要 使 用 简单 的 图 像 处 理 ， 然 后 对 照 我 们 预先 建立 的 
交通 图 案 模 型 就 可 以 快速 识别 。 

前 方 汽 车 、 障 碍 物 的 距离 、 速 度 的 检测 和 识别 。 能 否 安全 准确 地 识别 检测 出 前 
方 汽车 、 障 碍 物 对 汽车 智能 驾驶 是 十 分 关键 的 。 不 仅 要 识别 出 前 方 汽车 、 障 碍 物 ， 
而 且 要 检测 出 它们 的 运动 速度 、 运 动 方 向 和 离 本 车 的 距离 ， 要 能 依据 连续 儿 次 测定 
的 它们 离 本 车 的 距离 和 运动 速度 、 运 动 方 向 预测 出 它们 的 可 能 运动 轨迹 ， 为 本 车 超 
车 、 减 速 、 规 避 障 但 物 、 降 低 危 险 提供 可 靠 的 数据 。 


2.5.1 基于 SVM 的 行人 检测 


基于 计算 机 视觉 的 行人 检测 由 于 其 在 车 辆 辅助 驾驶 系统 中 的 重要 应 用 价值 成 为 
当前 计算 机 视觉 和 智能 车 辆 领域 最 为 活跃 的 研究 课题 之 一 。 其 核心 是 利用 安装 在 运 
动车 辆 上 的 摄像 机 检测 行人 ， 从 而 佑 计 出 潜在 的 危险 以 便 采取 策略 保护 行人 。 基 于 
视觉 的 行人 检测 系统 一 般 包括 两 个 模块 : 感 兴趣 区 分 割 和 目标 识别 。 

行人 检测 除了 具有 一 般 人 体检 测 具 有 的 服饰 变化 、 姿 态 变化 等 难点 外 ， 由 于 其 
特定 的 应 用 领域 还 具有 以 下 难点 : 摄像 机 是 运动 的 ， 这 样 广泛 应 用 于 智能 监控 领域 
中 检测 动态 目标 的 方法 便 不 能 直接 使 用 ; 行人 检测 面临 的 是 一 个 开放 的 环境 ， 要 考 
虑 不 同 的 路 况 、 天 气 和 光线 变化 ， 对 算法 的 鲁 棒 性 提出 了 很 高 的 要 求 ; 实时 性 是 系 
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统 必须 满足 的 要 求 ， 这 就 要 求 采 用 的 图 像 处 理 算法 不 能 大 复杂 。 

根据 分 割 所 用 的 信息 ， 可 将 感 兴趣 区 域 选择 (ROIs) 分 割 的 方法 分 为 基于 运 
动 、 基 于 距离 、 基 于 图 像 特 征 和 基于 摄像 机 参数 四 种 方法 。 基 于 运动 的 方法 通过 检 
测 场 景 中 的 运动 区 域 来 得 到 ROIs。 基 于 距离 的 方法 通过 测量 目标 到 汽车 的 距离 来 
得 到 ROIs， 可 以 用 来 测 距 的 传 感 絮 主要 包括 雷达 和 立体 视觉 。 基 于 图 像 特 征 的 方 
法 指 通过 检测 与 行人 相关 的 图 像 特征 从 而 得 到 ROIs。 对 于 可 见 光 图 像 来 说 ， 常 用 
的 特征 包括 坚 直 边缘 、 局 部 区 域 的 焙 和 纹理 等 。 对 于 红外 图 像 来 说 ， 主 要 根据 人 体 
尤其 是 人 脸 的 温度 比 周 围 环境 温度 较 高 这 一 特征 ， 通 过 检测 一 些 “ 热 点 ” (Hot 
spot) 来 得 到 ROIs。 摄 像 机 的 安装 位 置 和 摄像 机 参数 也 是 一 个 很 重要 的 考虑 因素 ， 
它 对 行人 在 图 像 上 出 现 的 位 置 和 每 个 位 置 上 目标 的 大 小 给 出 了 很 多 限制 ,合理 利用 
这 些 限制 可 以 大 大 地 缩小 搜索 空间 。 

1. DPM 目标 检测 算法 

DPM 算法 由 Felzenszwalb 于 2008 年 提出 ， 是 一 种 基于 部 件 的 检测 方法 ， 对 目 
标的 形变 具有 很 强 的 鲁 棒 性 。 目 前 DPM 已 成 为 众多 分 类 、 分 割 、 姿 态 估计 等 算法 
的 核心 部 分 ，Felzenszwalb 本 人 也 因此 被 视觉 目标 分 类 (VOC) 授予 “终身 成 就 
奖 ” 


















































DPM 算法 采用 了 改进 后 的 HOG 特征 ， 支 持 向 量 机 (SVM) 分 类 器 和 滑动 窗口 
(Sliding Windows) 检测 思想 ， 针 对 目标 的 多 视角 问题 ， 采 用 了 多 组 件 ( Compo- 
nent) 的 策略 ， 针 对 目标 本 身 的 形变 问题 ,采用 了 基于 图 结构 (Pictorial Structure) 
的 部 件 模 型 策略 。 此 外 ， 将 样本 所 属 的 模型 类 别 、 部 件 模 型 的 位 置 等 作为 潜 变 量 
(Latent Variable) ， 采 用 多 示例 学 习 (Multiple -instance Learning) 来 自动 确定 。 

2. DPM 的 特征 

DPM 采用 了 HOG 特征 ， 并 对 HOG 特征 进行 了 一 些 改进 。 如 图 2-34 Bra, 
DPM 改进 后 的 HOG 特征 取消 了 原 HOG PAY (block), ARR SAIC (Cell), 
但 归 一 化 时 ， 是 直接 将 当前 单元 与 其 周围 的 4 个 单元 (Cel) 所 组 成 的 一 个 区 域 归 
一 化 ， 所 以 效果 和 原 HOG 特征 非常 类 似 。 计 算 梯度 方向 时 可 以 计算 有 符号 (0° ~ 
360°) 或 无 符号 (0° ~180°) 的 梯度 方向 ， 有 些 目标 适合 使 用 有 符号 的 梯度 方向 ， 
而 有 些 目标 适合 使 用 无 符号 的 梯度 ， 作 为 一 种 通用 的 目标 检测 方法 ，DPM 与 原 
HOG 不 同 ， 采 用 了 有 符号 梯度 和 无 符号 梯度 相 结合 的 策略 。 如 此 ， 如 果 直 接 将 特 
征 向 量化 ， 那 么 单单 一 个 8 x8 的 单元 ， 其 特征 维 数 就 高 达 4 x (9+18) =108, 
维 数 过 高 。Felzenszwalb 提取 了 大 量 单元 的 无 符号 梯度 ， 每 个 单元 共 4 x9 =36 维特 
征 ， 并 进行 了 主 成 分 分 析 (Principal Component Analysis，PCA) ， 发 现 使 用 前 11 个 
村 征 向 量 基本 上 可 以 包含 所 有 的 信息 ， 不 过 为 了 快速 计算 ， 作 者 由 主 成 分 可 视 化 的 
结果 得 到 了 一 种 近似 的 PCA 降 维 效果 。 有 具体 来 说 ， 将 36 维 向 量 看 成 4x9 =36 的 
矩阵， 对 每 一 行 、 每 一 列 求 和 得 到 13 维特 征 ， 基 本 上 能 达到 HOG 特征 36 维 的 检 
测 效 果 。 为 了 提高 那些 适合 使 用 有 符号 梯度 目标 的 检测 精度 ， 作 者 再 对 18 个 有 符 
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号 梯度 方向 求 和 得 到 18 维 向 量 ， 并 入 其 中 ， 最 后 得 到 图 2-34 中 的 13 +18 =31 4E 
特征 向 量 。 











相对 令吉 归 一 化 。 有 符号 梯度 方向 直方 无 符号 梯度 方向 直方 图 
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3. DPM 的 检测 模型 

DPM V3 版 本 的 目标 检测 模型 
由 两 个 组 件 构 成 ， 每 一 个 组 件 由 一 
个 根 模型 和 若干 部 件 模 型 组 成 。 图 
2-35a 和 图 2-35b 是 其 中 一 个 组 件 
的 根 模型 和 部 件 模 型 的 可 视 化 的 效 
果 ， 每 个 单元 内 都 是 SVM 分 类 模型 
系数 对 梯度 方向 加 权 双 加， 梯度 方 
向 越 亮 的 方向 可 以 解释 为 行人 具有 
此 方向 梯度 的 可 能 性 越 大 。 如 
图 2-35a 所 示 ， 根 模型 比较 粗糙 ， 
大 致 呈现 了 一 个 直立 的 正面 /背面 Bese DEM eel 
行人 。 如 图 2-35b 所 示 ， 部 件 模型 为 矩形 框 内 的 部 分 ， 共 有 6 个 部 件 ， 分 辩 率 是 根 
模型 的 两 倍 ， 这 样 能 获得 更 好 的 效果 。 从 中 ,我们 可 以 明显 地 看 到 头 、 手 臂 等 部 
位 。 为 了 降低 模型 的 复杂 度 ， 根 模型 和 部 件 模型 都 是 轴 对 称 的 。 图 2-35c 为 部 件 模 
型 的 偏离 损失 ， 越 亮 的 区 域 表示 偏离 损失 代价 越 大 ， 部 件 模 型 的 理想 位 置 的 偏离 损 
失 为 0。 





c) 部 件 模型 的 偏离 损失 
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4. DPM 的 检测 流程 

DPM 采用 了 传统 的 滑动 窗口 检测 方式 ， 通 过 构建 尺度 金字 塔 在 各 个 尺度 搜索 。 
图 2-36 (WLR) 为 某 一 尺度 下 的 行人 检测 流程 ， 即 行人 模型 的 匹配 过 程 。 某 一 
位 置 (*,y) 与 根 模型 /部 件 模 型 的 响应 得 分 ， 为 该 模型 与 以 该 位 置 为 锚 点 〈 即 左上 
角 坐 标 ) 的 子 窗口 区 域内 的 特征 的 内 积 。 也 可 以 将 模型 看 作 一 个 滤波 算 子 ， 响 应 
得 分 为 特征 与 待 匹 配 模型 的 相似 程度 ， 越 相似 则 得 分 越 高 。 左 侧 为 根 模型 的 检测 流 
程 ， 滤 波 后 的 图 中 ， 越 亮 的 区 域 代 表 响 应 得 分 越 高 。 右 侧 为 各 部 件 模 型 的 检测 过 
程 。 首 先 ， 将 特征 图 像 与 模型 进行 匹配 得 到 滤波 后 的 图 像 。 然 后 ， 进 行 响应 变换 . 
以 锚 点 为 参考 位 置 ， 综 合 部件 模 型 与 特征 的 匹配 程度 和 部 件 模 型 相对 理想 位 置 的 偏 
离 损失 ， 得 到 最 优 的 部 件 模 型 位 置 和 响应 得 分 。 
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2-36 DPM 算法 的 检测 流程 
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5. 运行 结果 及 分 析 
首先 将 正 样本 固定 为 200 张 ， 依 次 增加 负 样 本 的 数量 ， 来 观察 检测 的 正确 率 ， 
见 表 2-1。200 正 样 本 错误 检测 数 随 负 样 本 变化 图 如 图 2-37 所 示 。200 正 样本 检测 
到 的 行人 数 随 负 样本 变化 图 如 图 2-38 所 示 。 





表 2-1 正 样 本 为 200 时 检测 到 的 行人 数 和 错误 检测 数 变 化 表 





























正 样本 数 负 样 本 数 检测 到 的 行人 数 错误 检测 数 
200 200 4 70 
200 400 2 20 
200 600 1 20 
200 800 1 15 
200 1000 5 10 
200 1200 5 8 
200 1400 5 9 
200 1600 4 8 
200 1800 4 6 
200 2000 4 6 
200 2200 3 4 
200 2400 2 2 
200 2600 2 1 
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图 2-37 正 样本 为 200 时 错误 检测 数 随 负 样本 增加 的 变化 图 
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图 2-38 正 样 本 为 200 时 检测 到 的 行人 数 随 负 样 本 增加 的 变化 图 


然后 将 正 样 本 的 数量 提升 到 600 张 ， 再 依次 增加 负 样 本 的 数量 ， 观 察 检测 的 正 
确 率 ， 见 表 2-2。600 正 样本 错误 检测 数 随 负 样 本 数 变化 图 如 图 2-39 所 示 。600 IE 
样本 检测 到 的 行人 数 随 负 样 本 数 变化 图 如 图 2-40 所 示 。 

表 2-2 正 样本 为 600 时 检测 到 的 行人 数 和 错误 检测 数 变 化 表 
























































正 样本 数 负 样 本 数 检测 到 的 行人 数 错误 检测 数 
600 600 3 40 
600 1200 2 20 
600 1800 2 12 
600 2400 1 15 
600 3000 2 10 
600 3600 2 15 
600 4200 2 10 
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图 2-39 正 样 本 为 600 时 错误 检测 数 随 负 样 本 增加 的 变化 图 





58 


第 2 章 视频 图 像 处 理 在 智能 驾驶 中 的 应 用 @e@e@ 














检测 到 的 正确 的 行人 数 














0 1000 2000 3000 4000 5000 
负 样 本 数 


图 2-40 正 样本 为 600 时 检测 到 的 行人 数 随 负 样 本 增加 的 变化 图 


正 负 样 本 数 比 分 别 为 1:1 和 1:5 时 的 效果 图 分 别 如 图 2-41 和 图 2-42 所 示 。 
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图 2-41 正 负 样本 数 比 为 1:1 时 效果 图 


分 析 : 从 这 两 组 数据 可 以 看 出 当 正 样本 数 固定 时 ， 随 着 负 样 本 数 的 增加 ， 错 误 
检测 数 会 明显 减少 ， 由 于 可 能 会 出 现 物体 之 间 的 重生 遮挡 等 问题 ,会 出 现在 一 定 阶 
段 随 着 负 样 本 数 的 增加 错误 检测 数 会 有 小 幅度 的 增加 。 也 可 以 看 出 随 着 负 样 本 数 的 
增加 ， 检 测 到 的 正确 的 行人 数 也 会 减少 。 但 在 正 负 样本 数 达 到 一 定 比例 时 会 出 现 能 
检测 到 所 有 或 者 大 多 数 的 行人 ， 而 错误 检测 数 又 相对 比较 少 的 情况 ， 这 个 比例 是 我 
们 所 要 找 的 比例 ， 以 我 们 的 实验 的 样本 来 说 这 个 比例 大 约 是 在 正 样本 数 比 负 样 本 为 
1:5 左右 。 
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图 2-42 正 负 样本 数 比 为 1:5 时 效果 图 


从 以 上 两 组 数据 可 以 得 出 : 

口 在 正 样本 固定 的 情况 下 ， 随 着 负 样 本 的 增多 ， 错 误 率 会 减少 ， 但 漏 检 率 会 
增加 。 

O 正 样本 的 增加 会 使 错误 率 增加 ， 但 会 使 漏 检 率 减少 。 

O 并 不 是 说 正 样本 越 大 检测 效果 就 越 好 ， 而 是 ， 检 测 效果 在 正 负 样 本 成 一 定 比 
例 时 最 好 ， 比 例 为 1:5 时 就 有 比较 好 的 效果 。 

由 于 样本 有 限 ， 这 些 结论 只 是 在 有 限 的 样本 中 总 结 出 来 的 ， 所 以 并 不 一 定 正 
确 ， 因 此 还 需 更 多 的 后 续 努 力 才 行 。 


2.5.2 SVM 与 深度 学 习 


智能 驾驶 中 的 机 器 视觉 技术 是 一 项 很 复杂 的 技术 ， 它 需要 进行 更 多 更 细致 的 研 
究 。 目 前 的 难点 和 重点 主要 集中 在 快速 有 效 的 立体 配对 、 道 路 环境 的 快速 三 维 重 建 
和 机 带 视 觉 处 理 的 实时 性 上 。 视 频 图 像 处 理 是 智能 驾驶 领域 中 的 研究 热点 。 近 年 来 
在 智能 车 研发 、 智 能 交通 系统 等 方面 的 需求 推动 让， 视频 图 像 处 理 技术 在 智能 驾驶 
领域 的 应 用 日 益 广 泛 。 但 由 于 环境 因素 、 智 能 驾驶 实时 性 等 相关 因素 的 存在 ， 使 得 
视频 图 像 处 理 算法 在 智能 驾驶 中 的 应 用 受到 很 大 限制 ， 尤 其 在 智能 驾驶 中 的 关键 部 
分 : 车 道 线 、 标 志 牌 、 交 通信 号 灯 等 方面 表现 得 更 为 突出 。 

这 主要 由 于 各 种 天 气 晴 、 阴 、 雨 、 雪 、 雾 等 气候 环境 ， 路 面 环境 如 路 面 的 宽 
度 、 颜 色 、 纹 理 、 弯 道 、 坡 度 、 坑 洼 、 障 碍 与 车 流 等 ， 因 此 视频 图 像 处 理 算法 的 普 
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适 性 很 难 达到 。 目 前 ， 比 较 一 致 的 观点 认为 ， 可 以 通过 提取 地 网 信息 的 高 层 语义 特 
征 ， 实 现 有 语义 辅助 的 视频 图 像 处 理 。 

本 章 的 识别 算法 主要 是 基于 SVM 进行 分 类 的 ， 而 当前 多 数 分 类 、 回 归 等 学 习 
方法 (包括 SVM) 为 浅 层 结构 算法 ， 其 局 限 性 在 于 有 限 样本 和 计算 单元 情况 下 对 
复杂 抽 数 的 表示 能 力 有 限 ， 针 对 复杂 分 类 问题 其 泛 化 能 力 受 到 一 定制 约 。 

深度 学 习 可 通过 学 习 一 种 深层 非 线性 网 络 结构 ， 实 现 复 杂 函 数 逼 近 ， 表 征 输入 
数据 分 布 式 表 示 ， 并 展现 了 强大 的 从 少数 样本 集中 学 习 数据 集 本 质 特征 的 能 力 。 深 
度 学 习 的 实质 ， 是 通过 构建 具有 很 多 隐 层 的 机 器 学 习 模型 和 海量 的 训练 数据 ， 来 学 
习 更 有 用 的 特征 ， 从 而 最 终 提升 分 类 或 预测 的 准确 性 。 在 计算 机 视觉 里 经 常 使 用 的 
深度 学 习 方 法 是 卷 积 神经 网 络 ， 即 CNN， 这 是 一 种 对 人 脑 比 较 精 准 的 模拟 。 在 
CNN 中 ， 如 果 卷 积 神经 网 络 的 次 度 太 浅 的 话 ， 识 别 能 力 往往 不 如 一 般 的 浅 层 模型 ， 
比如 SVM 或 者 boosting; 但 如 果 做 得 很 深 ,就 需要 大 量 数 据 进 行 训练 ， 否 则 机 带 学 
习 中 的 过 拟 合 将 不 可 避免 。 即 深层 的 卷 积 神经 网 络 对 计算 机 的 运算 要 求 比较 高 ， 需 
要 进行 大 量 重复 可 并 行 化 的 计算 ,在 CPU 运算 能 力 不 高 的 情况 下 ， 不 可 能 进行 很 
深 的 卷 积 神经 网 络 的 训练 。 但 随 着 GPU 计算 能 力 的 增长 ， 卷 积 神经 网 络 结合 大 数 
据 的 训练 成 为 了 可 能 。 

因此 , “深度 模型 ”是 手段 ,，“ 特 征 学 习 ” 是 目的 。 区 别 于 传统 的 浅 层 学 习 ， 
深度 学 习 的 不 同 在 于 : 中 强调 了 模型 结构 的 深度 ， 通 常 有 5 层 、6 层 ， 甚 至 10 多 
层 的 隐 层 节点 ; @ 明 确 突出 了 特征 学 习 的 重要 性 ， 也 就 是 说 ， 通 过 逐 层 特 征 变换 ， 
将 样本 在 原 空 间 的 特征 表示 变换 到 一 个 新 特征 空间 ， 从 而 使 分 类 或 预测 更 加 容易 。 
与 人 工 规则 构造 特征 的 方法 相 比 ， 利 用 大 数据 来 学 习 特 征 ， 更 能 够 刻画 数据 的 丰富 
内 在 信息 。 
智能 驾驶 中 的 视频 图 像 处 理 是 一 个 跨 学 科 的 、 富 有 挑战 性 的 研究 课题 。 在 这 个 
领域 中 ， 与 传统 视频 图 像 处 理 存在 着 很 大 差异 ， 对 环境 的 适应 性 以 及 算法 实时 性 等 
要 求 ， 给 众多 研究 者 带 来 了 巨大 困难 。 本 章 针 对 智能 驾驶 中 常用 的 几 类 视频 图 像 处 
理 算法 进行 了 论述 ， 各 个 算法 还 有 待 进一步 优化 ， 在 机 器 学 习 方 面 ， 使 用 深度 学 习 
模型 进行 优化 ， 特 别 是 在 智能 驾驶 中 应 用 中 ,在 后 续 的 内 容 会 讲述 相关 算法 使 用 
GPU 进行 优化 的 过 程 ， 也 是 未 来 智能 驾驶 中 至 关 重 要 的 部 分 。 


2.6 本章 小 结 
























































本 章 的 工作 主要 是 针对 智能 驾驶 中 常用 的 视频 图 像 处 理 算法 进行 了 综述 ， 其 重 





测 。 本 章 的 识别 算法 主要 是 基于 SVM 进行 分 类 的 ， 而 当前 多 数 分 类 、 回 归 等 学 习 
方法 (包括 SVM) 为 浅 层 结构 算法 ， 其 局 限 性 在 于 有 限 样本 和 计算 单元 情况 下 对 
复杂 函数 的 表示 能 力 有 限 ， 针 对 复杂 分 类 问题 其 泛 化 能 力 受到 一 定制 约 。 
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现代 GPU 以 其 强大 的 计算 能 力 、 较 高 的 峰值 带宽 以 及 日 益 增 强 的 可 编程 性 ， 
成 为 当前 高 性 能 计算 系统 中 最 重要 的 加 速 部 件 。 越 来 越 多 的 算法 被 成 功 移植 到 
GPU 平台 上 ， 并 取得 了 很 好 的 加 速 比 。CUDA 和 OpenCL 等 GPU 编程 模型 的 日 益 成 
熟 ， 为 开发 人 员 有 效 利用 GPU 的 强大 计算 性 能 提供 了 条 件 。 而 要 编写 高 性 能 的 
GPU 程序 ， 需要 程序 员 对 GPU 的 底层 硬件 架构 特征 有 清晰 的 认识 。 特 别 是 在 CPU 
底层 硬件 架构 日 益 多 样 化 的 今天 ， 分 析 了 解 不 同 GPU 底层 硬件 架构 的 异同 ， 是 编 
写 高 性 能 GPU 程序 和 实现 性 能 移植 的 重要 前 提 。 

本 章 首先 分 析 了 GPU 与 CPU 架构 的 区 别 ; 其 次 在 详细 介绍 当前 主流 GPU 架构 
的 基础 上 ， 分 析 了 这 些 架 构 的 异同 。 











3.1 GPU 与 CPU 架构 的 区 别 


与 CPU 面向 延迟 的 设计 原则 ， 将 大 量 晶体 管用 于 数据 缓存 和 逮 辑 控制 不 同 ， 
GPU 采用 面向 吞吐 量 的 设计 原则 ， 将 大 量 晶体 管用 于 计算 单元 ， 以 便 能 集成 更 多 
的 计算 核心 。CPU 架构 与 GPU 架构 的 区 别 如 图 3-1 所 示 。GPU 有 比 CPU 高 得 多 的 
处 理 能 力 ， 主 流 GPU 的 单 精度 浮 点 数 性 能 已 经 达到 同时 期 主流 CPU 的 十 几 倍 甚至 
几 十 倍 。 同 时 ，GPU 芯片 中 集成 了 比 CPU 更 多 的 存储 器 控制 单元 ， 这 就 使 得 GPU 
有 比 CPU 高 得 多 的 存储 带宽 。 主 流 GPU 的 访 存 带宽 是 同时 期 CPU 的 5 倍 甚至 
更 高 。 

GPU 可 有 效 地 控制 大 量 线程 的 并 行 运行 。 与 CPU 线程 的 创建 、 销 毁 及 切换 需 
要 较 大 的 开销 不 同 ，GPU 采用 的 是 由 人 硬件 管理 的 轻 量 级 线程 ， 可 以 实现 零 开 销 的 
线程 切换 。 这 就 可 以 用 大 量 的 线程 切换 来 隐藏 访 存 延 公 ， 当 一 个 线程 因 访问 片 外 存 
储 絮 而 被 挂 起 时 ， 可 及 时 切换 到 另外 一 个 就 绪 线 程 ， 用 计算 来 隐藏 访 存 开销 。 这 种 
通过 大 量 线程 的 相互 切换 执行 而 隐藏 访 存 延 迟 的 方式 ， 使 得 GPU 不 需要 大 量 的 数 
据 缓存 和 复杂 的 缓存 体系 ， 从 而 避免 了 缓存 一 致 性 和 复杂 烦琐 的 缓存 管理 机 制 。 

由 于 缓存 和 逻辑 控制 电路 的 减少 ， 使 得 GPU 只 能 高 效 地 处 理 相互 独立 的 大 规 
模 数据 密集 型 计算 。 而 面 对 具 有 复杂 逻辑 控制 的 应 用 程序 ，CPU 则 具有 更 强 的 处 
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图 3-1 CPU 与 GPU 体系 架构 的 差异 


理 能 力 。 因 此 ， 在 异 构 计算 系统 中 ， 充 分 发 挥 CPU 和 GPU 的 特点 : CPU 负责 逻辑 
控制 ，GPU 负责 大 规模 并 行 数据 计算 ， 以 便 充 分 利用 整个 计算 机 系统 的 计算 资源 。 





3.2 ”当前 主流 GPU 体系 架构 


当前 ， 主 流通 用 计算 GPU 都 采用 SIMT (Single Instruction Multiple Thread ， 单 
指令 多 线程 ) 架构 ， 不 同 GPU 的 架构 又 各 自 具 有 不 同 的 特点 。 本 方 将 分 析 目 前 主 
流 GPU 架构 的 特点 以 及 不 同 架构 间 的 异同 。 





3.2.1 NVIDIA GPU 架构 


1. Fermi 架构 

Fermi 24244 42 NVIDIA 发 布 的 第 三 代 流 多 处 理 器 ( Streaming Multiprocessor, 
SM) 架构 。 为 能 够 更 适合 通用 计算 的 需求 ，Fermi 架构 从 底层 计算 单元 、 内 存 系统 
到 芯片 整体 架构 都 进行 了 全 新 的 设计 。Fermi 共 集 成 了 将 近 30 亿 个 晶体 管 ， 最 多 可 
拥有 512 个 CUDA 核 ， 它 们 分 属于 不 同 的 SM， 每 个 SM 单元 拥有 32 个 CUDA 核 。 
ORE, Fermi 架构 可 最 多 拥有 16 个 SM。 图 3-2 显示 了 NVIDIA Fermi 的 整体 架构 。 
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图 3-2 NVIDIA Fermi 架构 
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如 图 3-2 所 示 ，NVIDA Fermi 采用 了 三 层 的 体系 架构 。 第 一 层 由 若干 共享 L2 
cache 的 可 扩展 流 阵 列 SM 组 成 。 不 同型 号 的 GPU，SM 的 数量 可 能 会 不 相同 。 如 
NVIDIA Tesla C2050 GPU 拥有 14 个 SM。 不 同 SM 的 执行 是 相互 独立 的 。 第 二 层 为 
流 多 处 理 器 (SM). SM 是 一 个 高 度 并 行 处 理 器 ， 最 多 支持 48 个 warp 的 并 发 执行 。 
每 个 SM 上 由 两 个 warp Jal RE Ae, 32 个 CUDA 核心 、4 个 SFU (Special Function 
Units, ， 特 殊 函 数 处 理 单元 ) 和 16 个 LD/ST (Load/Store Unit, 存 取 单元 ) 构成 。 第 
三 层 为 CUDA 核心 。CUDA 核心 是 GPU 最 基本 的 指令 执行 单元 ， 每 个 时 钟 周 期 可 
执行 一 条 逻辑 运算 指令 、 单 精度 浮 点 数 或 者 32 位 整数 运算 指令 。 每 个 CUDA 核心 
由 一 个 FP (Float Point， 浮 点 ) 计算 单元 和 一 个 n ( 整 型 ) 计算 单元 组 成 。 这 里 
要 强调 的 是 ，CUDA 核心 中 并 没有 指令 部 件 ， 其 执行 的 操作 由 SM 的 指令 发 送 单元 
控制 。 在 Fermi 架构 中 ，Int 计算 单元 已 经 可 以 进行 32bit 的 整 型 数 运算 ， 而 不 像 
GT200 架构 中 仅仅 支持 24bit 的 整 型 数 运 算 。 

在 Fermi 架构 中 ， 需 要 关注 以 下 三 点 : 

(1) 可 配置 的 缓存 结构 

Fermi 架构 的 每 一 个 SM 中 拥有 64KB 的 片上 缓存 ， 可 作为 共享 存储 器 
(SharedMemory) 或 者 Ll cache， 用 户 可 自行 指定 其 大 小 。 如 可 以 设置 为 48KB 的 共 
享 存储 器 和 16KB 的 Ll cache， 或 者 是 16KB 线程 
的 共享 存储 器 和 48KB 的 LI cache。 共 享 存 
储 右 作为 对 程序 员 可 见 的 片上 存储 资源 ， 具 


有 较 高 的 访 存 带宽 和 访 存 效率 ， 可 减少 对 片 x 
外 资源 的 访 存 次 数 ， 实 现 数据 共享 和 位 于 同 | eche | 


一 线程 块 内 的 线程 间 的 通信 。L1 cache 可 用 
Pb SH ay Fe ain Vt HH HERR EPR TE. (AD LI 
cache 可 缓解 由 于 寄存 器 溢出 而 导致 的 程序 
性 能 的 急剧 降低 。 图 3-3 显示 了 Fermi 架构 
可 配置 的 缓存 结构 。 图 3-3 可 配置 的 缓存 结构 

(2) 硬件 资源 的 限制 

在 GPU 编程 中 ， 要 注意 硬件 资源 的 限制 。 如 在 Fermi 架构 中 ， 每 个 SM 只 
32KB 的 寄存 器 和 64KB 的 共享 存储 器 /Ll cache。 这 是 有 限 的 硬件 资源 ， 如 果 每 个 
线程 使 用 过 多 的 寄存 需 或 者 共享 存储 器 ， 就 会 影响 SM 中 并 发 执行 的 线程 数量 ， 可 
能 会 导致 由 于 并 发 线程 数目 过 少 而 不 能 隐藏 访 存 延 迟 ， 从 而 导致 性 能 的 降低 。 而 许 
多 优化 方法 ， 如 循环 展开 、 向 量化 操作 等 。 一 方面 会 提升 程序 的 性 能 ; 另 一 方面 也 
会 增加 每 个 线程 的 寄存 器 使 用 数目 ， 从 而 导致 性 能 的 降低 。 因 此 ，GPU 这 种 硬件 
资源 的 限制 ， 导 致 了 优化 空间 的 不 连续 性 。GPU 程序 的 优化 很 大 程度 上 是 许多 优 
化 方法 相互 平衡 、 相 互 折 中 的 过 程 。 

(3) SM 单元 的 双 warp 调度 能 
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在 CUDA 编程 模型 中 ， 采 用 多 线程 调度 机 制 。 执 行 和 调度 单元 为 由 32 个 线程 
组 成 的 warp。 在 Fermi 架构 中 ， 每 个 流 多 处 理 有 两 个 warp 调度 单元 和 两 个 指令 发 
送 单元 。 这 就 允许 两 个 warp 可 以 同时 调度 执行 ， 每 个 warp 由 SM 内 的 其 中 一 组 16 
个 CUDA 核心 调度 执行 。 由 于 warp 执行 的 相互 独立 性 ， 调 度 器 没有 必要 检查 指令 
流 的 依赖 性 ， 两 个 warp 可 并 行 执行 。 因 此 ， 在 GPU 程序 优化 中 ， 要 保证 每 个 SM 
至 少 分 配 两 个 warp， 才 能 充分 利用 硬件 资源 。 在 实际 应 用 中 ， 我 们 需要 在 每 个 SM 
上 部 署 足够 的 warp， 通 过 warp 的 相互 切换 执行 来 隐藏 访 存 延迟 。 

此 外 ，Fermi 架构 的 存储 系统 提供 了 纠 错 人 码 技术 (Error Correcting Code, 
ECC) 。 一 方面 ， 提 高 了 大 规模 并 行 应 用 的 可 靠 性 ， 而 在 另 一 方面 ， 也 增加 了 访 存 
延迟 ， 降 低 了 访 存 带宽 的 利用 率 。 

2. Kepler 架构 

为 了 提高 CPU 的 性 能 /功率 比 ，NVIDIA 在 Fermi 架构 的 基础 上 研发 Kepler 28 
构 。 相 比 于 Fermi 架构 ，Kepler 主要 在 以 下 几 个 方面 进行 了 改进 。 

(1) 缓存 结构 的 改进 

Kepler 架构 支持 统一 内 存 加 
载 和 存储 请 求 ， 每 个 多 处 理 器 有 
一 个 Ll cache、 共 享 内 存 、L2 
cache 和 动态 随机 存储 器 (Dy- 
namic Random Access Memory, 
DRAM) 内 存 。 此 外 ， Kepler 还 
为 编译 器 指示 为 只 读 的 数据 增设 


一 个 新 的 只 读数 据 缓 存 ， 如 
图 3-4 所 示 。 DRAM 
在 Kepler 架构 中 ， 每 个 SM 


有 64KB 的 片上 存储 器 ， 可 配置 

为 48KB 的 共享 内 存 和 16KB 的 

LI 缓存 ， 或 配置 为 16KB 的 共享 内 存 和 48KB 的 LI cache， 此 外 还 支持 共享 内 存 和 
LI cache 各 以 32KB 划分 ， 如 图 3-5 所 示 。 

BR L1 cache 之 外 ，Kepler 为 只 读数 据 引 入 48KB cache, Æ Fermi 架构 中 ,该 
cache 只 能 由 纹理 单元 访问 。 使 用 只 读数 据 cache 可 有 效 提升 程序 性 能 ， 因 为 它 可 
以 减少 对 共享 内 存 /L1 cache 的 使 用 。 此 外 ， 只 读数 据 cache 以 更 高 的 带宽 支持 全 
速 非 对 齐 内 存 访问 模式 。 该 cache 的 使 用 是 由 编译 器 自动 管理 (通过 参数 C99 访问 
任何 变量 或 称 为 常量 的 数据 结构 ) : 使 用 关键 字 “const_ restrict” 可 “通知 ”编译 
器 该 部 分 数据 使 用 只 读数 据 cache 加 载 。 

Kepler CPU 具有 1536KB 的 专用 L2 cache ， 是 Fermi 架构 中 12 cache 的 2 FF. 
L2 cache 是 主要 数据 统一 点 ， 处 理 所 有 加 载 、 存 储 和 纹理 请 求 并 提供 跨 GPU 之 间 





















缓存 








图 3-4 Kepler 缓存 结构 








65 


ooo 视频 图 像 处 理 与 性 能 优化 


有 效 、 高 速 的 数据 共享 。Kepler 上 的 L2 cache 提供 的 每 时 钟 带宽 是 Fermi 中 的 
2 倍 。 
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图 3-5 Kepler SM 架构 


(2) warp 调度 机 制 的 改进 

如 图 3-6 所 示 ， 每 个 SM 单元 包含 192 个 单 精度 CUDA Core, 64 个 双 精 度 单元 
(DP Unit) 、32 个 特殊 功能 单元 (SFU) 和 32 个 加 载 /存储 单元 (LD/ST), 4 个 
warp 调度 单元 ，8 个 指令 分 发 单元 。 在 SM 上 , 4 个 warp 可 同时 调度 执行 。Kepler 
的 Quad warp Scheduler 选择 4 个 warp, HEHA warp 可 并 行 执行 两 条 独立 的 指令 。 
Fermi 不 允许 双 精 度 指 令 和 其 他 指令 配对 ， 而 Kepler 允许 双 精 度 指令 和 其 他 指令 配 
对 ， 例 如 加 载 /存储 指令 、 纹 理 指 令 以 及 一 些 整数 型 指令 。 
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Warp Scheduler 





time 








图 3-6 Kepler Warp 调度 机 制 


(3) 硬件 资源 的 增多 

Æ Kepler 上 ， 可 由 线程 访问 的 寄存 髓 数量 最 多 是 255 个 ，Fermi 架构 只 有 63 
个 ， 这 大 大 提高 了 在 Fermi 架构 中 存在 较 大 寄存 需 压 力 或 寄存 需 汇 露 行为 的 代码 的 
性 能 。 

(4) 原子 运算 的 改进 

原子 内 存 运 算 允 许 并 发 线程 对 共享 数据 结构 执行 正确 的 读 -修改 - 写 运算 。 
Kepler 全 局 内 存 原子 运算 的 甜 吐 量 较 Fermi 有 大 幅度 提高 。 普 通 全 局 内 存 原子 运算 
的 吞吐 量 相 对 于 每 频率 一 个 运算 来 说 提高 了 9 倍 。 独 立 全 局 内 存 原子 运算 的 吞吐 
量 也 明显 加 快 ， 而 且 处 理 地 址 神 突 的 逻辑 更 加 有 效 。 原 子 运 算 通 党 可 以 按照 类 似 全 
局 负载 运算 的 速度 进行 处 理 。 该 性 能 的 提高 使 得 原子 运算 可 以 在 kernel 内 部 的 循环 
中 使 用 ， 这 消除 了 之 前 一 些 算法 在 对 不 同 block (线程 块 ) 的 计算 结果 进行 规约 计 
算 时 所 需要 的 额外 传递 操作 。 

此 外 ， 为 了 进一步 提高 性 能 ，Kepler 架构 引入 了 Shuffle 指令 ， 人 允许 同一 warp 
内 的 线程 可 不 通过 共享 内 存 进 行 通信 和 数据 共享 ， 如 图 3-7 所 示 。 此 前 ，warp 内 
线程 之 间 的 数据 共享 需要 通过 共享 内 存 实现 。 使 用 Shuffle 指令 ， 线 程 可 以 读 取 同 
一 warp 内 其 他 线程 的 任意 变量 的 值 。Shuffle 支持 任意 索引 引用 〈 即 任何 线程 读 取 
同一 warp 内 的 任何 其 他 线程 ) Shuffle 性 能 优 于 共享 内 存 ， 因 此 数据 存储 和 加 载 操 
作 能 够 一 步 完 成 。Shuffle 也 可 以 减少 每 个 block 所 需 的 共享 内 存 的 数量 ， 因 为 数据 
在 warp 内 的 交换 不 需要 通过 共享 内 存 。 

3. Maxwell 架构 

Maxwell 架构 是 Kepler 架构 的 升级 。 相 比 于 Kepler 架构 的 GPU, Maxwell 的 SM 
有 着 很 大 的 不 同 。 每 个 SM 有 4 个 warp Jae AE, BES warp 调度 央 每 个 时 钟 周 期 能 
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图 3-7 Shuffle 指令 


调度 两 个 相互 独立 的 指令 。Maxwell 
SM 分 为 4 个 独立 的 处 理 块 ， 每 个 处 理 
块 具备 自己 的 指令 缓冲 区 、 调 度 器 以 
及 32 个 CUDA 核心 ， 如 图 3-8 HRA, ee 
新 的 划分 方法 简化 了 设计 与 调度 逻辑 ， 
节省 了 晶体 管 与 能 耗 ， 降 低 了 计算 
HED 
与 Kepler 324940 LE, Maxwell 架构 

的 SM 的 内 存 层次 结构 也 发 生 了 变化 。 
在 Kepler 架构 中 ， 一 共有 64KB 的 空 
间 大 小 ， 供 共享 内 存 和 Llcache 分 配 。 
在 Maxwell 架构 中 共享 内 存 和 Li cache 
分 开 了 ,共享 内 存 大 小 是 96KB。 此 
外 ，Maxwell 采用 了 容量 大 增 的 二 级 高 
速 缓存 设计 ，Maxwell 核心 架构 中 二 级 
高 速 缓存 容量 为 2048KB ， 而 Kepler 中 

的 容量 仅 为 2356KB。 由 于 片上 高 速 绥 
存 容量 更 大 ， 因 此 需要 向 显卡 DRAM 
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卡 能 耗 ， 提 升 了 性 能 。 如 表 3-1 所 示 ， Memory Interface 
Fe: Kepler GPU 与 Maxwell GPU 的 
差异 。 图 3-8 Maxwell 架构 
表 3-1 Kepler GPU 与 Maxwell GPU 具体 参数 
GPU Tegra K1 (Kepler GPU) Tegra X1 ( Maxwell GPU) 
SMs 1 2 
CUDA 核 192 256 
GFLOPs (FP32) Peak 365 512 
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3% GPU 体系 架构 @@e 
( 续 ) 
GPU Tegra K1 (Kepler GPU) Tegra X1 (Maxwell GPU) 
GFLOPs (FP16) Peak 365 1024 
Texture Units 8 16 
Texel fill — rate 7. 6Gigatexels/s 16Gigatexels/s 
Memory Clock 930MHz 1. 6GHz 
存储 带宽 14.9 GB/s 25. 6 GB/s 
ROPs 4 16 
12 cache Size 128KB 256KB 
Manufacturing Process 28nm 20nm 
Z-cull 256 pixels/clock 256 pixels/clock 
Raster 4 pixels/clock 16 pixels/clock 
Texture 8 bilinear filters/clock 16 bilinear filters/clock 
ZROP 64 samples/clock 128 samples/clock 








4. Pascal 架构 

Pascal 架构 是 最 近 NVIDIA 公司 推出 的 一 款 针 对 高 性 能 并 行 计 算 的 GPU 架构 。 
与 Maxwell 和 Kepler 相 比 ， 虽 然 每 个 Pascal SM 只 有 64 个 单 精度 CUDA 核 ， 是 
Maxwell SM 中 CUDA 核 数 的 一 半 ， 但 总 的 SM 数目 增加 了 ， 每 个 SM 保持 与 上 一 代 
相同 的 寄存 器 组 ， 则 总 的 寄存 器 数目 增加 了 。 这 意味 着 Pascal 上 的 线程 可 以 使 用 更 
多 寄存 器 ， 也 意味 着 Pascal 相 比 旧 的 架构 支持 更 多 线程 、warp 和 线程 块 数 日 。 从 
Pascal SM 架构 图 中 可 以 看 到 ， 一 个 Pascal SM 分 成 两 个 处 理 块 ， 每 块 有 32768 个 
32 位 寄存 器 、32 个 单 精度 CUDA 核 和 一 个 warp 调度 器 。 与 此 同时 ，Pascal 总 共享 
内 存量 也 随 SM 数目 增加 而 增加 了 ， 带 宽 显 著 提 升 。 此 外 ，Pascal SM 还 拥有 32 个 
DP Unit， 即 双 精 度 计算 单元 ， 支 持 64 位 双 精 度 浮 点 计算 。 相 比 Kepler 架构 ，Pas- 
cal SM 架构 简化 了 数据 通路 ， 占 用 面积 更 小 ， 能 耗 更 低 。Pascal SM 架构 提供 更 高 
级 的 调度 和 重 县 载 人 /存储 指令 来 提高 浮 点 利用 率 。 相 比 Maxwell, Pascal SM 调度 
器 架构 更 智能 ， 具 备 高 性 能 、 低 能 耗 特性 。1 个 warp 调度 器 (每 个 处 理 块 共享 一 
个 ) 在 一 个 时 钟 周期 内 可 以 分 发 两 个 warp 指令 ， 如 图 3-9 所 示 。 


3.2.2 AMD GPU 架构 























1. Cypress 架构 

AMD Cypress 架构 治 用 了 传统 GPU 的 单 指令 数据 流 (Single Instruction Multiple 
Data, SIMD) 架构 ， 可 以 视 为 由 若干 个 SIMD 处 理 单 元 组 成 的 多 处 理 器 。 不 同型 号 
的 处 理 器 拥有 的 SIMD 处 理 单元 的 数目 是 不 同 的 。 比 如 AMD HD5850 GPU 有 18 个 
SIMD 处 理 单元 ， 而 AMD HD5870 有 20 个 SIMD 处 理 单元 。AMD Cypress GPU 的 架 
构 特 征 如 图 3-10 所 示 。 

如 图 3-11 所 示 ， 同 NVIDIA Fermi 架构 一 样 ，AMD Cypress 架构 依然 采用 了 层 
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图 3-9 Pascal SM 架构 
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图 3-10 AMD Cypress 架构 


ADD RO.y, RO, R1 CUDA 核 
ADD RO.z, RO, R1 CUDA 核 


ADD RO.x, RO, R1 CUDA 核 
ADD RO.xyzw, RO, R1 —> 
ADD RO.w, RO, R1 CUDA 





图 3-11 矢量 加 法 在 NVIDIA GPU 上 的 运行 
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次 式 的 架构 设计 。 其 最 基本 的 指令 执行 单元 为 SC (Stream Core， 流 处 理 核心 ) 。 与 
CUDA 核心 不 同 ，SC 采用 了 向 量化 架构 , 由 5 个 相互 独立 的 处 理 部 件 组 成 ， 形 成 了 
一 个 5 路 VLIW (Very Long Instruction Word, 超 长 指令 字 ) 处 理 器 。 这 样 SC 在 一 
个 时 钟 周期 内 可 最 多 同时 处 理 5 条 相互 独立 的 指令 ， 这 就 为 开发 指令 级 并 行 提供 了 
硬件 条 件 。 两 个 处 理 部 件 的 组 合 可 执行 一 条 双 精 度 浮 点 数 运算 ,执行 速度 相对 较 
慢 。 此 外 ，SC 内 部 还 有 一 个 特殊 函数 处 理 单元 (T -PE)， 用 以 处 理 sin, log 等 复 
Fe PRB, 16 个 SC 组 成 了 SIMD 处 理 单元 ， 并 共享 一 个 程序 计数 器 ， 因 此 ， 它 们 的 
执行 完全 是 同步 的 。 除 此 之 外 ，SIMD 单元 拥有 有 限 数量 的 寄存 器 以 及 程序 员 可 以 
控制 的 本 地 内 存 (共享 内 存 ，NVIDA GPU ) ， 本 地 内 存 可 被 运行 在 SIMD 单元 的 所 
有 线程 共享 ， 并 可 实现 位 于 同一 线程 块 内 的 所 有 线程 的 通信 。SIMD 计算 单元 阵列 
构成 了 GPU ， 并 通过 极 线程 调度 处 理 需 ( Ultra — thread dispatch processor) 维护 若 
干 独立 的 命令 队列 ， 以 此 来 调度 大 量 线程 独立 计算 数据 流 中 不 同 的 数据 元 素 。 

同 NVIDIA CPU 一 样 ，AMD GPU 同样 采用 了 多 线程 调度 机 制 。 其 执行 和 调度 
的 最 小 单位 是 由 64 个 线程 组 成 的 wavefronts wavefront 间 的 执行 是 相互 独立 的 ， 并 
且 每 个 wavefront 只 能 在 一 个 SIMD 计算 单元 上 调度 执行 。 由 于 每 个 SIMD 计算 单元 
内 部 只 有 16 个 SC。 因 此 ， 一 个 wavefront 指令 的 完成 需要 4 个 时 钟 周 期 。 同 NVDIA 
GPU 一 样 ，AMD GPU 可 在 SM 上 部 署 大 量 的 wavefront， 这 些 wavefront 将 以 时 间 片 
的 方式 轮转 执行 ， 当 一 个 wavefront 因 访 存 而 造成 阻塞 时 ， 线 程 调度 器 会 立即 调度 
其 他 wavefront 来 执行 。 以 此 来 隐藏 访 存 延迟 ， 减少 计算 资源 的 浪费 。 这 也 是 CPU 
程序 优化 的 通用 法 则 : 在 GPU 上 部 署 足够 多 的 线程 ， 以 隐藏 访 存 延 迟 。 

AMD GPU 的 每 个 SIMD 计算 单元 同样 拥有 通用 计算 器 和 本 地 内 存 等 有 限 的 片 
上 资源 。 如 Cypress 架构 每 个 SIMD 计算 单元 拥有 32KB 的 本 地 内 存 和 16KB 的 128 
位 的 向 量 寄存 器 。 这 些 硬件 资源 的 限制 ， 同 样 会 导致 CPU 程序 优化 空间 的 不 连 
续 性 。 

2. GCN 架构 

相 比 于 Cypress 架构 ，GCN 架构 在 硬件 架构 上 做 出 了 巨大 的 改进 ， 更 适合 通用 
计算 。 

(1) 处 理 器 层次 结构 

GPU 厂商 通常 采用 模块 化 设计 ， 通 过 增加 或 减少 模块 的 数目 来 满足 不 同 层次 
的 需求 。 为 了 与 OpenCL 抽象 一 致 ，AMD 将 其 GCNGPU 模块 化 为 3 个 层次 : 设备 、 
CU 和 ALU, AMD 第 一 代 基 于 GCN 架构 的 GPU: RadeonHD7970， 具 有 32 个 CU, 
每 个 CU 具有 64 个 流 核心 ， 故 总 共有 2048 个 核心 。 每 个 CU 具有 独立 的 本 地 内 存 、 
一 级 缓存 和 常量 缓存 。 所 有 的 32 个 核心 共享 统一 的 二 级 缓存 ， 二 级 缓存 通过 交叉 
总 线 (CrossBar) 连接 到 显存 控制 需 。 

(2) CU 

GCN 架构 中 的 CU 除了 4 组 向 量 核心 外 ， 还 有 一 个 标量 核心 。 每 组 向 量 核心 包 
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含 16 个 标量 ALU， 每 组 向 量 核心 每 次 执行 一 条 wavefront 指令 。CU 中 的 标量 核心 
用 于 计算 分 支 、 常 量 缓存 访问 和 其 他 以 wavefront 为 单位 的 操作 。GCN 中 每 个 CU 
具有 64KB 局 部 存储 器 ， 但 是 每 个 工作 组 只 可 使 用 32KB。GCN 架构 中 没有 单独 用 
于 特殊 函数 计算 的 单元 。 

CU 中 计算 单元 主要 是 4 个 向 量 核心 ， 每 个 核心 可 同时 处 理 16 个 32 位 浮 点 乘 
加 运算 ， 这 意味 着 CU 每 周期 的 计算 能 力 为 16 x4 x2 =128 个 操作 。 

(3) 存储 器 层次 

GCN GPU 的 存储 器 和 处 理 器 一 样 也 呈现 出 层次 结构 ， 这 种 结构 通常 表现 出 组 
存 的 关系 ， 比 如 本 地 内 存 和 L2 cache 会 缓存 全 局 存储 器 的 数据 ，L1l cache 会 缓存 
12 cache 中 的 数据 。 

全 局 内 存 就 是 显存 ， 能 够 被 整个 索引 空间 内 任何 一 个 工作 项 读 写 ， 并 且 可 在 多 
个 内 核 间 调用 (除非 显 式 释 放 ) 。 但 其 延迟 非常 大 ， 常 用 来 存储 主机 端的 大 容量 炎 
据 ， 以 避免 多 次 传输 。 目 前 常用 的 显存 采用 GDDRS 技术 ， 容 量 从 2CB 到 12GB 不 
等 。 在 满足 合并 访问 条 件 下 ， 能 够 获得 更 大 的 带宽 。 

CU 对 全 局 内 存 的 访问 都 会 通过 二 级 缓存 ， 二 级 缓存 由 索引 空间 内 的 所 有 工作 
项 共享 ，HD7970 具有 768KB 二 级 缓存 。 对 于 GPU 来 说 ， 二 级 缓存 存在 的 主要 目 
的 是 减少 访 存 不 对 齐 的 影响 ， 增 大 带宽 ， 而 不 是 减少 延迟 ， 因 此 其 大 小 远 小 于 对 应 
的 x86 CPU, 

常量 内 存 (统一 ) ERR, 索引 空间 内 所 有 工作 项 都 可 以 读 取 ， 并且 可 在 
多 个 内 核 间 调用 。 常 量 内 存 具 有 高 性 能 、 独 立 的 缓存 ， 为 了 更 好 地 利用 缓存 ，GCN 
架构 限制 软件 开发 人 员 声 明 的 常量 大 小 为 16KB。 由 于 现代 的 GPU 都 具有 cache, 
因此 常量 内 存 已 经 不 再 那么 重要 ， 但 是 在 某 些 情况 下 还 是 能 够 显著 提升 程序 性 能 。 

本 地 内 存 只 能 被 同一 个 工作 组 的 工作 项 读 写 ， 且 只 在 工作 项 的 生存 期 间 有 效 ， 
一 旦 工作 组 执行 完成 即 不 可 再 用 ， 使 用 时 需要 注意 并 行 访问 时 的 竞 写 问题 。 本 地 内 
存 类 似 于 用 户 可 控制 的 cache， 软 件 开发 人 员 必 须 显 式 地 使 用 。GCN 架构 上 每 个 
CU 具有 64KB 本 地 内 存 , 但 是 运行 在 CU 上 的 每 个 工作 组 最 多 只 能 使 用 32KB。 
GCN 架构 的 本 地 内 存 划 分 为 32 个 存储 器 (bank) ， 每 个 bank 宽度 为 4B。 本 地 内 存 
常用 于 通用 并 行 计算 时 的 共享 数据 和 工作 组 内 工作 项 的 通信 ， 但 是 由 于 采用 的 是 片 
上 内 存 ， 其 速度 极 快 ， 因 此 也 被 用 于 优化 程序 性 能 。 

GCN 架构 上 每 个 CU 具有 16KB 一 级 缓存 ， 它 们 被 用 于 缓存 对 全 局 存储 器 的 访 
问 。GCN 架构 具有 标量 和 向 量 寄存 器 ， 向 量 寄存 器 大 小 为 256KB， 每 个 寄存 器 大 
小 为 32 位 ， 故 总 共有 64K 个 寄存 器 。 如 果 数 据 大 小 是 64 位 ， 则 会 使 用 相 邻 的 两 个 
寄存 器 。GCN 架构 限制 每 个 工作 项 最 多 可 使 用 的 向 量 寄存 器 数目 为 255 个 。 


3.2.3 两 种 架构 的 异同 


通过 前 两 节 的 论述 ， 从 优化 的 角度 讲 ，NVIDIA 架构 GPU 和 AMD 架构 GPU 在 







































































72 


第 3 章 GPU 体系 架构 eee 


架构 上 的 主要 差异 是 基本 执行 单元 设计 上 的 差异 CUDA 核心 采用 了 标量 化 的 设 
计 ， 而 SC 采用 了 向 量化 的 设计 。 此 外 ，NVIDIA GPU 寄存 器 是 32 位 的 标量 化 设 
计 ， 而 AMD GPU 的 寄存 器 为 128 位 的 向 量化 设计 。 这 种 设计 上 的 差异 也 决定 了 两 
者 在 处 理 向 量化 指令 方式 上 的 不 同 。 

对 于 Fermi 架构 ， 每 个 CUDA 核心 内 部 都 有 一 个 全 功能 的 浮 点 数 处 理 器 。 对 于 
4D KES, NVIDIA GPU 会 结合 4 4 CUDA 核心 共同 完成 。 如 图 3-11 Pras, 一 
AD 的 矢量 指令 在 NVIDIA GPU 上 执行 时 ， 会 转换 为 相互 独立 的 4 条 标量 指令 ， 
并 被 分 配 到 不 同 的 CUDA 核心 上 执行 。 这 种 实现 方式 的 特点 就 是 灵活 ， 无 论 是 1D、 
2D、3D 还 是 4D 指令 ， 都 拆 分 成 相互 独立 的 1D 指令 来 执行 。CUDA 的 这 种 流 处 理 
器 架构 的 设计 放弃 了 单独 追求 高 浮 点 数 计算 吞吐 量 的 目标 ， 而 是 通过 优化 处 理 器 内 
部 结构 来 换取 更 高 的 执行 效率 ， 同 时 也 大 大 提高 了 架构 的 灵活 性 和 可 扩展 性 。 

AMD Cypress 架构 GPU 沿用 了 传统 GPU 的 SIMD 架构 ， 每 个 SC 拥有 5 个 共享 
指令 发 射 端口 的 1D ALU ， 并 被 组 织 为 5 路 VLIW (Very Long Instructionword, ， 超 长 
指令 字 ) 处 理 器 ， 在 每 个 时 钟 周期 内 ， 一 条 VLIW 指令 可 同时 执行 5 个 标量 操作 。 
从 宏观 上 看 ，AMD Cypress 架构 GPU 确实 是 SIMD 架构 ， 因 为 SC 内 部 的 5 个 ALU 
共用 一 个 指令 发 射 端 口 。 然 而 ， 这 5 个 ALU 与 传统 GPU 的 ALU 不 同 ， 它 们 是 相互 
独立 的 ， 并 能 各 自 组 合 处 理 任意 的 1D/2D/3D/4D/5D 指令 ， 完 美 支持 Co - issue 
(矢量 指令 和 标量 指令 并 行 执 行 )， 因 此 ， 从 微观 上 看 ，AMD GPU 可 以 称 为 5D 超 
标量 架构 。 

在 VLIM 体系 中 ,通过 将 多 个 短 指令 合并 成 一 条 长 VLIW 指令 的 方式 来 提高 计 
算 资 源 的 利用 率 ， 最 大 程度 缓解 了 标量 指令 效率 低下 的 问题 。 而 男 一 方面 ， 在 通用 
计算 中 ， 并 不 能 将 所 有 的 计算 指令 都 组 装 成 合适 长 度 的 向 量化 指令 。 因 此 ，SC 的 
这 种 向 量化 的 设计 ， 也 会 降低 计算 资源 的 利用 率 。 同 时 ， 也 增加 了 AMD Cypress 架 
构 GPU 在 优化 过 程 中 的 难度 。 因 此 ，AMD 最 新 的 GCN 架构 GPU 采用 了 标量 化 的 
设计 ， 重 新 组 织 了 计算 单元 。 

尽管 NVIDA 架构 和 AMD 架构 存在 着 差异 ,但 从 宏观 上 看 ， 两 者 在 整体 设计 上 
存在 着 相似 性 : 

口 相同 的 硬件 层次 架构 。NVIDIA 和 AMD 架构 都 采用 了 层次 式 的 硬件 架构 ， 
基础 架构 由 可 扩展 的 计算 单元 阵列 组 成 ， 而 计算 单元 由 计算 核心 构成 。 计 算 核 心 的 
操作 由 所 属 的 计算 单元 的 指令 发 送 单元 控制 。 

口 相似 的 内 存 层次 架构 。 两 者 同样 采用 了 层次 式 的 内 存 架 构 : 线程 私有 的 寄存 
器 ; 可 被 同一 线程 块 内 所 有 线程 共享 并 可 被 程序 员 控 制 的 本 地 内 存 (NVIDIAGPU 
称 为 共享 内 存 ) ; 可 被 所 有 线程 访问 且 大 容量 的 全 局 内 存 。 前 两 者 为 片上 内 存 ， 具 
有 较 高 的 访 存 带 宽 和 较 低 的 访 存 延 迟 ， 但 容量 有 限 ; 后 者 成 为 片 外 内 存 ， 容 量 
但 具有 较 高 的 访 存 延 迟 和 相对 较 低 的 访 存 带 宽 。 充 分 利用 片上 资源 进行 数据 本 地 
化 ， 以 减少 对 本 地 资源 的 依赖 ， 是 GPU 优化 的 重要 方法 。 
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口 相似 的 调度 策略 。 两 者 都 采用 了 多 线程 的 调度 策略 。 不 同 的 是 ， 在 NVIDIA 
架构 中 ， 调 度 单元 warp 包含 32 个 线程 ;而 在 AMD 架构 中 ， 调 度 单元 wavefront 包 
E 64 个 线程 。 两 者 都 能 有 效 控制 大 规模 线程 的 并 行 执行 ， 通 过 warp/wavefront 的 交 
替 执 行 来 隐藏 访 存 延迟 。 同 时 线程 间 的 调度 都 是 通过 硬件 实现 的 ， 开 销 低 。 

O 相同 的 线程 组 织 架 构 。 两 者 都 属于 大 规模 并 行 处 理 咒 ， 可 并 行 执行 大 量 线 
程 。 除 硬件 层次 外 ， 两 者 具有 相同 的 线程 组 织 形式 。 将 要 执行 的 大 量 线程 被 组 织 成 
N 维 的 线程 空间 ;线程 空间 又 进一步 切 分 成 不 同 的 线程 块 ， 每 个 线程 块 只 能 在 一 个 
计算 单元 上 调度 执行 ， 线 程 块 间 的 执行 是 相互 独立 的 。 同 一 线程 块 内 的 线程 可 通过 
本 地 内 存 进行 通信 。 每 个 线程 也 只 能 在 一 个 处 理 核 心 上 执行 。 

这 些 硬件 和 软件 架构 的 相似 性 ， 为 研究 分 析 GPU 程序 在 不 同 CPU 架构 上 优化 
方法 和 策略 的 共性 提供 了 可 能 ， 也 为 进一步 实现 不 同 GPU 架构 间 的 性 能 可 移植 创 
造 了 条 件 。 


3.3 本章 小 结 














本 章 介绍 了 本 书 研 究 的 基础 。 分 析 了 目前 主流 的 两 大 GPU 体系 一 一 NVIDIA 
GPU 和 AMD GPU， 并 分 别 分 析 这 两 大 系列 GPU 的 几 种 架构 特点 和 异同 。 虽然 在 计 
算 核心 和 寄存 器 等 设计 细节 上 存在 差异 ， 但 从 整体 上 看 ， 不 同 的 GPU 架构 依然 具 
有 相似 性 : 相同 的 硬件 层次 架构 、 相 似 的 内 存 层次 架构 和 相似 的 调度 策略 。 
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Ani, GPU 编程 模型 主要 有 两 种 : CUDA 和 OpenCL, CUDA 编程 模型 由 
NVIDIA 公司 推出 ， 目 前 应 用 非常 广泛 ， 然 而 仅 适 用 于 NVIDIA GPU, OpenCL 是 由 
开源 组 织 Khronos 维护 的 跨 平台 异 构 编程 框架 ， 其 最 大 特点 是 跨 平台 性 ，NVIDIA 
GPU 和 AMD GPU 都 实现 了 对 OpenCL 的 支持 。 本 节 将 阐述 这 两 个 编程 模型 的 特点 。 





4.1 CUDA 编程 模型 





CUDA 是 NVIDIA 公司 于 2007 年 推出 ， 将 GPU 作为 数据 并 行 计算 设备 的 软 硬 
件 体系 ， 其 硬件 体系 主要 为 支持 CUDA 的 CPU。 其 软件 体系 包括 一 组 运行 时 API, 
一 组 设备 驱动 API 和 一 个 库 文件 。 

CUDA 编程 模型 如 图 4-1 所 示 。CUDA 编程 模型 将 CPU 作为 主机 端 ，GPU 作为 
设备 端 ， 一 个 计算 系统 可 由 一 个 主机 和 多 个 设备 组 成 。 在 模型 定义 中 ，CPU 和 
GPU 各 司 其 职 ， 协 同 运 行 : CPU 负责 逻辑 性 较 强 的 事务 处 理 和 串 行 计算 ， 而 GPU 

负责 高 度 并 行 化 的 数据 计算 任务 。 GPU 并 不 能 独立 运行 程序 ， 程 序 的 执行 由 CPU 
端 控制 。CPU 启动 程序 运行 ， 并 将 适用 于 大 规模 并 行 的 计算 任务 交 给 GPU 执行 
(kernel 函数 ) ，GPU 在 执行 完毕 后 ， 计 算 结 构 返 回 CPU, 

CUDA 将 计算 任务 映射 为 大 量 相互 独立 且 可 并 行 执行 的 线程 ， 并 由 硬件 调度 运 
行 。CUDA 将 这 些 线程 以 网 格 (Grid) 的 形式 进行 组 织 和 管理 ， 网 格 又 进一步 划分 
成 线程 块 (block) ， 线 程 块 由 若干 线程 组 成 。 在 网 格 中 ， 每 个 线程 都 有 自己 的 线程 
+> (thread Id) 和 线程 块 号 (block Id) 。 线 程 块 间 的 执行 是 相互 独立 的 ， 可 并 行 执 
行 。 这 样 ， 在 kernel 函数 中 就 存在 着 两 层 并 行 性 : Grid 中 的 block 间 的 并 行 和 block 
中 的 thread 并 行 。 两 层 并 行 编程 模型 是 CUDA 编程 模型 最 重要 的 创新 之 一 。 

CUDA 内 存 模型 如 图 4-2 tas, 在 GPU 上 CUDA 线程 可 以 访问 到 的 存储 资源 
有 很 多 ， 每 个 CUDA 线程 拥有 独立 的 本 地 内 存 (Local Memory ) ， 每 一 个 线程 块 
(block) 都 有 其 独立 的 共享 内 存 (Shared Memory) ， 共 享 内 存 对 于 线程 块 中 的 每 个 
线程 都 是 可 见 的 ， 它 与 线程 块 具 有 相同 的 生存 周期 ， 而 全 局 内 存 (Global Memory) 
对 所 有 的 CUDA 线程 都 是 可 访问 的 。 
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图 4-1 CUDA 编程 模型 





除了 上 述 三 种 存储 资源 以 外 ，CUDA 还 提供 了 两 种 只 读 内 存 空间 : 常量 内 存 
(Constant Memory) 和 纹理 内 存 (Texture Memory) 。 同 全 局 内 存 类 似 ， pat 的 CU- 
DA 线程 都 可 以 访问 它们 。 对 于 一 些 特殊 格式 的 数据 ， 纹 理 内 存 提供 多 种 寻 址 模式 
以 及 数据 过 滤 方 法 来 操作 内 存 。 这 两 类 存储 资源 主要 用 于 一 些 特殊 的 内 存 使 用 
场合 





一 个 程序 局 动 内 核 函 数 以 后 ,全 局 内 存 、 常 量 内 存 以 及 纹理 内 存 将 会 一 直 存 在 
直到 该 程序 结束 。 a i ee 它 允 许 程序 员 定 义 一 种 被 称 
为 内 核 函 数 的 C 函数 ， 内 核 函数 运行 在 GPU E, 一旦 启动 ，CUDA 中 的 每 一 个 线 
程 都 将 会 同时 并 行 地 执行 内 核 函 数 中 的 代码 。 内 核 函 数 使 用 关键 字 - global -来 声 
明 ， 运 行 该 函数 的 CUDA 线程 数 则 通过 <<<... >>> 执行 配置 语法 来 设置 。 
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图 4-2 CUDA 内 存 模型 


4.2 OpenCL 编程 模型 


OpenCL 是 一 个 在 异 构 平 台 上 编写 并 行程 序 的 开放 工业 标准 ， 它 将 CPU、GPU 
以 及 其 他 各 类 计算 设备 组 织 成 一 个 统一 的 计算 平台 ， 开 发 者 可 以 以 统一 而 有 效 的 方 
式 使 用 这 些 计算 资源 。OpenCL 不 仅仅 是 一 门 语言 ， 而 是 一 个 并 行 编程 框架 ， 包 括 
一 个 底层 程序 接口 和 一 个 高 性 能 、 可 移植 的 抽象 层 ， 一 个 为 并 行程 序 设 计 提 供 的 有 
效 的 并 行 开 发 环境 ， 一 个 平台 独立 的 工具 和 丰富 的 中 间 软 件 层 。 

OpenCL 有 两 个 重要 的 特点 : 一 是 提供 了 一 种 跨 厂 商 的 非 专 有 软件 的 解决 方案 ， 
OpenCL 已 经 得 到 了 包括 Intel、NVIDIA 和 AMD 等 主流 芯片 厂商 的 支持 ， 各 大 厂商 
都 有 对 OpenCL 标准 的 实现 。 二 是 提供 了 一 个 跨 平台 的 异 构 编 程 框架 ，OpenCL 程 
序 不 仪 能 够 在 各 种 异 构 平 台 上 自由 移植 ， 而 且 能 够 以 统一 的 方式 充分 有 效 地 利用 计 
算 机 系统 中 的 各 种 计算 资源 。 

OpenCL 可 通过 四 个 抽象 模型 来 描述 : 平台 模型 、 执 行 模型 、 内 存 模型 和 编程 
模型 。 图 4-3 综合 显示 了 OpenCL 的 抽象 模型 。 

1. 平台 模型 

OpenCL 平台 模型 有 主机 和 与 其 相连 的 一 个 或 者 多 个 计算 设备 组 成 。 如 图 4-3a 
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图 4-3 OpenCL 抽象 模型 


所 示 ，OpenCL 设备 由 一 个 或 者 多 个 计算 单元 (Compute Unit, CU) 组 成 ， 计 算 单 
元 又 拆 分 成 一 个 或 者 多 个 处 理 元 件 ( Processing Element, PE), OpenCL 设备 的 计算 
在 PE 中 完成 。OpenCL 程序 的 执行 由 主机 端 控 制 ， 主 机 端 通过 建立 命令 队列 ， 向 
设备 端 提交 命令 的 方式 ， 驱 动 设备 端 完 成 计算 任务 。 计 算 结 果 最 终 需 要 返回 给 主 
机 端 。 

在 CPU + GPU 异 构 平 台中 ，CPU 为 主机 ，GPU 为 计算 设备 。 在 OpenCL 设备 的 
映射 中 ，NVIDA GPU 的 流 多 处 理 器 (SM) 和 AMD GPU 的 SIMD 处 理 单元 映射 为 
CU。 同 时 ，NVIDIA GPU 的 CUDA 核心 和 AMD GPU 的 流 处 理 核心 (SC) 映射 
为 PE。 

2. 执行 模型 

OpenCL 的 执行 模型 可 以 分 为 两 部 分 : 运行 于 Host 端的 主 程序 和 运行 于 计算 设 
备 的 内 核 程序 (Kernel) 。 主 程序 通过 定义 和 管理 上 下 文 (context) 来 控制 内 核 程 
序 的 执行 ， 内 核 程 序 则 在 OpenCL 设备 上 执行 具体 的 计算 任务 。 

主 程序 执行 内 核 程 序 之 前 必须 为 其 设置 一 个 标识 索引 的 工作 空间 (NDRange ) , 
内 核 程 序 会 在 该 工作 空间 的 每 一 个 节点 (work - item) 上 执行 kerel 实例 ， 每 一 个 
work - item 在 工作 空间 中 拥有 唯一 识别 的 global_id。work - item 还 可 粗 粒 度 地 被 组 
织 为 工作 组 (work - group) ， 每 一 个 work - item 在 work - group 内 具有 唯一 可 标识 
的 local_id， 而 每 一 个 work - group 均 拥 有 唯一 标识 的 group_id。 

NDRange 是 为 内 核 程序 定义 的 一 个 N 维 空间 ， 其 中 NN 为 1、2 或 3， 分 别 对 应 
于 一 维 、 二 维 或 三 维 空间 。Global_id、local_id 和 group_id 的 维 数 由 启动 kernel 参 
数 时 定义 ， 均 为 NW， 坐标 范围 为 0 ~N -1。 如 图 4-4 所 示 。 

在 AMD 的 GPU 中 ，wavefront 为 调度 和 执行 的 基本 单位 ， 每 个 wavefront 包含 
64 个 线程 ， 此 由 硬件 实现 所 决定 ， 它 提供 了 比 工 作 组 更 细 粒 度 的 并 行 。 每 一 个 
wavefront 中 的 64 个 work - items 执行 相同 的 指令 序列 。 一 个 CU 可 同时 调度 执行 多 
个 work - group， 但 一 个 work - group 只 能 映射 至 单个 CU， 而 kernel 执行 时 会 将 
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work - group 划分 为 一 个 或 多 个 的 wavefront。 每 个 CU 只 有 16 个 处 理 单元 ， 因 此 一 
条 指令 至 少 需要 4 个 周期 才能 执行 完成 。 当 CU 中 调度 多 个 wavefront 时 ， 任 何 一 个 
wavefront 因 访 存 而 阻塞 ， 可 快速 切换 到 下 一 个 就 绪 的 wavefront， 从 而 隐藏 访 存 的 
延迟 。 

在 NVIDIA 的 GPU 中 线程 是 以 warp 为 单位 执行 的 ， 每 个 warp 由 32 个 线程 组 
成 ， 此 处 的 warp 对 应 于 AMD 的 GPU PAY wavefront, mi NVIDIA 的 GPU 中 block 对 
应 于 AMD 的 GPU 中 的 work - group。 以 TeslaC2050 为 例 ， 一 个 warp 有 32 个 线程 ， 
SM 中 有 16 个 核心 ， 因 此 每 发 射 一 条 指令 ， 需 要 两 个 周期 才能 执行 完成 。 

3. 内 存 模型 

OpenCL 定义 了 层次 化 的 内 存 模 型 ， 共 定义 了 全 局 内 存 、 常 量 内 存 、 本 地 内 存 
和 私有 内 存 四 块 不 同 的 存储 区 域 。 全 局 内 存 可 被 NDRange 中 的 所 有 work - item if 
问 ， 一 般 具 有 较 大 的 容量 ， 但 一 般 位 于 片 外 ， 具 有 相对 较 低 的 访 存 带宽 和 较 高 的 访 
存 延 迟 ， 并 由 主机 端 进行 动态 分 配 。 常 量 内 存 是 位 于 全 局 内 存 中 的 一 块 内 存 区 域 ， 
其 内 存在 kernel 的 执行 期 间 不 能 修改 。 本 地 内 存 是 一 个 隶属 于 work - group 的 内 存 
区 域 ， 可 实现 在 同一 个 work - group 内 的 所 有 work - item 的 数据 共享 和 通信 。 本 地 
内 存 位 于 片上 ,， 一般 容量 有 限 , 但 具有 和 较 高 的 访 存 带 宽 和 较 低 的 访 存 延迟 ， 并 由 
kernel 进行 静态 分 配 。 私 有 内 存 是 work - item 的 私有 存储 区 域 ， 对 其 他 work - item 
不 可 见 ， 同 样 由 kernel 进行 静态 分 配 。 由 此 可 见 ，OpenCL 的 内 存 模型 和 GPU 的 内 
存 架 构 具 有 很 好 的 映射 关系 。 

OpenCL 定义 了 宽松 的 内 存 一 致 性 模型 ， 本 地 内 存 只 在 本 地 同步 点 保证 同一 个 
work - group 内 的 所 有 work -item 的 内 存 一 致 性 。 全 局 内 存 的 一 致 性 只 在 全 局 同步 
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点 保证 。 

此 外 ， 各 级 存储 类 型 在 容量 和 速度 上 都 有 很 大 差别 。 以 RadeonHD5870 为 例 ， 
OpenCL 内 存 模型 映射 到 CPU 硬件 内 存 的 对 应 关系 见 表 4-1。 其 中 全 局 内 存 容量 最 
大 但 是 速度 最 慢 ， 私 有 内 存 容量 较 小 但 速度 最 快 。 各 存储 层次 带宽 由 高 到 低 依 次 
H: 私有 内 存 > 常量 缓存 > 局 部 存储 > Li cache > L2cache > 全 局 存储 。 


表 4-1 OpenCL 内 存 模型 与 GPU 硬件 资源 映射 关系 





























Open CLMemory Type Hardware Resource Size/CU Size/GPU | Peak Read Bandwidth 
Private GPR 256K 5120K 48B/cycle 
Local LDS 32K 640K 8B/cycle 
Direct — addressedconstant — 48K 16B/cycle 
Constant Same — indexedconstant = T 4B/cycle 
Varying — indexedconstant = = ~0. 6B/cycle 
Images Ll cache 8K 160K 4B/cycle 
12cache = 512K ~ 1. 6B/cycle 
Global Global Memory — 1G ~0. 6B/cycle 














4. 编程 模型 

OpenCL 支持 数据 并 行 和 任务 并 行 两 种 编程 模型 也 支持 两 者 的 混合 编程 。 
OpenCL 主要 侧重 于 数据 并 行 编程 模型 ， 即 将 相同 的 指令 序列 作用 于 不 同 的 数据 元 
素 上 。 在 OpenCL 编程 模型 中 ， 可 通过 work - item 的 全 局 ID 或 者 本 地 ID ， 实 现 
work — item 与 数据 的 映射 。OpenCL 实现 了 宽松 的 数据 并 行 编程 模型 ， 并 不 要 求 
work - item 与 操作 数 的 一 一 对 应 。OpenCL 定义 了 显 式 和 隐 式 两 种 数据 并 行 编程 模 
型 : 前 者 定义 work — item 的 总 数 以 及 work - group 的 划分 ;后 者 仅仅 定义 了 work - 
item 的 总 数 ， 而 work - group 的 划分 由 OpenCL 的 具体 实现 来 管理 。 

除 此 之 外 ，OpenCL 还 定义 了 两 类 同步 操作 : 本 地 同步 和 全 局 同步 。 本 地 同步 
是 指 属于 同一 work - group 内 的 work - item 间 的 同步 ， 可 由 本 地 同步 函数 实现 。 全 
局 同步 是 指 位 于 同一 上 下 文 的 命令 队列 中 的 命令 间 的 同步 ， 可 由 命令 队列 同步 操作 
函数 或 者 事件 实现 。 

由 此 可 见 ，OpenCL 编程 模型 与 CUDA 编程 模型 在 平台 模型 和 执行 模型 方面 存 
在 很 多 相似 之 处 。 然 而 ， 相 对 于 CUDA, OpenCL 最 大 的 优势 就 是 其 跨 平台 性 。 
OpenCL 程序 可 在 不 同 厂商 、 不 同 架构 的 CPU 上 进行 平滑 移植 。 随 着 GPU 架构 的 
日 益 多 样 化 和 应 用 领域 的 不 断 扩展 ， 特 别 是 针对 那些 无 法 判断 终端 用 户 使 用 的 
GPU 架构 类 型 的 桌面 级 应 用 程序 来 说 ， 实 现 应 用 程序 在 不 同 GPU 架构 (比如 
NVIDIA GPU 和 AMD GPU) 间 的 平滑 移植 就 显得 越 来 越 重要 。 这 也 是 本 书 研究 工 
作 采 用 OpenCL 编程 模型 的 重要 原因 。 
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4.3 CUDA 和 OpenCL 编程 流程 


在 CUDA 和 OpenCL 的 架构 下 ， 一 个 程序 分 为 两 个 部 分 : Host 端 和 Device 端 。 
Host 端 是 指 在 CPU 上 执行 的 部 分 ， 而 Device 端 则 是 在 GPU 上 执行 的 部 分 。Device 
端的 程序 又 称 为 “kermel”。 如 图 4-5 所 示 ， 分别 为 CUDA 和 OpenCL 的 基本 流程 。 
接 下 来 ， 本 文 以 一 个 简单 的 GPU 程序 〈 即 向 量 相 加 程序 ) 分 别 来 叙述 CUDA 和 
OpenCL, 
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图 4-5 CUDA 和 OpenCL 的 基本 流程 


4.3.1 CUDA 向 量 相 加 程序 编写 过 程 


1. 分 配 CPU 内 存 和 GPU 全 局 内 存 空 间 

首先 使 用 malloc 分 配 三 块 内 存 ， 分 别 是 存放 数据 源 host_a 和 host_b 以 及 存放 
向 量 相 加 的 结果 的 host_c。 其 次 采用 cudaMalloc 分 配 三 块 内 存 ， 分 别 是 存储 数据 
device_a 和 device_b 以 及 存放 向 量 相 加 的 结果 device_c。cudaMalloc 的 用 法 与 malloc 
的 用 法 相似 。 其 具体 代码 如 代码 清单 4-1 所 示 。 

2. 初始 化 内 存 空间 

本 文通 过 采用 rand () 函数 随机 分 配 数 据 给 host_a 和 host_b， 从 而 完成 内 存 空 
间 的 初始 化 。 其 具体 代码 如 代码 清单 4-2 所 示 。 
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代码 清单 4-1 分 配 内 存 空间 和 GPU 全 局 内 存 空间 





int *host_a = (int * )malloc(sizeof(int) * n);//n 为 数据 大 小 
int * host_b = (int * )malloc(sizeof(int) * n); 

int * host_e = (int * )malloc(sizeof(int) * n); 

int *device_a, *device_b, * device_c; 

cudaMalloc( (void * * ) &device_a, sizeof( int) * n); 
cudaMalloc( (void * * ) &device_b, sizeof( int) * n); 


cudaMalloc( (void * * ) &device_c, sizeof( int) * n); 





代码 清单 4-2 ”初始 化 内 存 空 间 





for (inti = 0; i < nj; i++) | 
host_a[ i] = rand( ) % 1000; 
host_b[ i] = rand()% 1000; 





3. 将 要 计算 的 数据 从 CPU 内 存 传 输 到 GPU 全 局 内 存 上 
本 文通 过 cudaMemcpy 函数 将 host 端的 数据 源 host_a 和 host_b 传 到 device 端的 
数据 源 device_a 和 device_b。cudaMalloc 与 cudaMemcpy 类 似 ， 不 过 cudaMemcpy 多 
一 个 参数 ， 指 示 传 输 内 存 的 方向 。 在 这 里 因为 是 从 host 内 存 传输 到 device 内 存 ， 
所 以 使 用 cudaMemcpyHostToDevice。 如 果 是 从 device 内 存 传输 到 host 内 存 ， 则 使 用 
cudaMemcpyDeviceToHost。 其 具体 代码 如 代码 清单 4-3 所 示 。 


代码 清单 4-3 ”将 要 计算 的 数据 从 内 存 上 传输 到 全 局 内 存 上 








cudaMemepy(device_a, host_a, sizeof(int) * n，cudaMemcpyHostToDevice ; 


cudaMemepy(device_b, host_b, sizeof(int) * n, cudaMemcpyHostToDevice) ; 





4. 执行 kernel 

首先 ， 需 要 完成 keme 函数 配置 设置 ， 其 具体 配置 代码 如 代码 清单 4-4 所 示 。 
初始 化 dimBlock 为 16 * 16 *1 的 dim3 类 型 ， 指 定 线程 块 的 三 个 维度 ， 这 里 第 三 维 
是 1， 即 退化 为 16 * 16 的 二 维 线程 块 。 为 了 最 大 化 并 行 ， 安 排 每 一 个 线程 负责 一 
次 向 量 加 法 ， 那么 则 需要 ceil(n/(16 * 16) ) 个 线程 块 ， 设 置 线程 网 络 也 为 二 维 方 阵 
的 话 ， 其 gridsize HX ceil(sqrt(ceil(n / (16 * 16))))。 同 样 初 始 化 维度 变量 dim- 
Grid, TES Grid 只 能 是 二 维 以 下 的 ， 第 三 个 维度 设置 被 自动 忽略 。 设 置 中 用 了 上 取 
整 ， 是 为 了 保证 至 少 有 一 个 线程 完成 向 量 每 对 元 素 的 相 加 ， 那 么 这 样 设置 可 能 会 导 
致 线程 数目 多 于 向 量 长 度 ， 因 此 在 Kernel 函数 中 需要 让 这 些 线程 直接 退出 ， 而 不 
是 引起 数组 超 界 的 错误 。 
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代码 清单 4-4 kerned 函数 配置 





#define BLOCKSIZE 16 

intgridsize = (int) ceil(sqrt(ceil(n / (BLOCKSIZE * BLOCKSIZE) ) ) ) ; 
dim3 dimBlock(BLOCKSIZE, BLOCKSIZE, 1) ; 

dim3 dimGrid( gridsize, gridsize, 1) ; 

add < < <dimGrid, dimBlock > > > (device_a, device_b, device_c, n); 





下 面 来 推导 线程 块 号 为 blockIdx、 线 程 号 为 threadIdx 的 线程 完成 向 量 计 算 的 数 
组 下 标 : 块 内 地 址 为 threadIdx. x * blockDim. x + threadIdx.y， 把 线程 号 映射 到 
[0, blockDim. x * blockDim. y -l Jo 线程 块 地 址 为 blockIdx. x * gridDim. x + 
blockIdx. y， 把 块 号 映射 到 [0，gridDim. x * gridDim. y - 1]。 所 以 该 线程 的 地 址 
Xi = (blockldx. x * gridDim. x + blockIdx.y) * blockDim. x * blockDim. y + 
threadIdx. x * blockDim. x。 其 具体 的 向 量 加 法 kernel 函数 定义 如 代码 清单 4-5 
所 示 。 








代码 清单 4-5 kernel 函数 





__global__ void add( const int * a, const int *b, int *c, int n) | 

inti = (blockIdx. x * gridDim. x + blockIdx. y) * blockDim. x * blockDim. y + threadIdx. x * 
blockDim. x + threadldx. y; 

if (i <n) | 

cli] = afi] + bli];} 


} 
Í 





5. 将 计算 结果 从 GPU 全 局 内 存 传输 到 CPU AF 

在 完成 kernel 计算 后 ， 需 要 把 device 端 处 理 结果 传 回 host 端 上 。 wa cu- 
daMemcpy KIOK. device 端的 处 理 结果 decice_c 传 到 host 端口 host_c 内 存 上 。 其 次 , 在 
使 用 完 device 后 ， 我 们 需要 将 device 的 内 存 释放 。 其 具体 代码 如 代码 清单 4-6 pe 不 。 


代码 清单 4-6 全 局 内 存 上 的 数据 传输 到 内 存 上 














cudaMemepy(host_c, device_c, sizeof(int) * n，cudaMemcpyDeviceToHost ) ; 


cudaFree( device_a) ; 
cudaFree(device_b) ; 


cudaFree(device_c) ; 


结果 数据 处 理 
在 获取 完 device 端的 处 理 结 果 decice_c 后 ， 可 能 我 们 还 需 进 行进 一 步 处 理 ， 比 
如 打印 处 理 结 果 。 在 完成 处 理 后 ， 我 们 需要 将 host 的 内 存 释 放 。 其 具体 代码 如 代 
码 清单 4-7 所 示 。 
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代码 清单 4-7 ”处 理 传输 到 内 存 上 的 数据 
for (inti = O; i < n;i++)| 
printf( "host_c = %d\n" , host_c[ i] ) ;} 
free( host_a) ; 
free( host_b) ; 
free ( host_c ) 








4.3.2 OpenCL 和 问 量 相 加 程序 编写 过 程 


1. OpenCL 初始 化 

与 CUDA 不 同 ，OpenCL 为 了 兼顾 不 同 的 设备 ， 其 需要 用 一 系列 的 API 来 初始 
化 OpenCL 的 运行 环境 ， 其 主要 通过 以 下 四 项 工作 来 初始 化 device 的 运行 环境 。 

(1) 平台 查询 与 选择 

首先 我 们 要 取得 系统 中 所 有 支持 OpenCL 的 平台 (platform), Tia AY platform 
指 的 就 是 硬件 厂商 提供 的 OpenCL 和 框架， 不同 的 CPU/GPU FRR (比如 Intel, 
AMD, NVIDIA) 可 以 在 一 个 系统 上 分 别 定 义 自己 的 OpenCL 框架 。 所 以 我 们 需要 查 
询 系统 中 可 用 的 OpenCL 框架 ， 即 platform。 使 用 API 函数 clGetPlatformIDs 获取 可 用 
platform 的 数量 。 然 后 根据 数量 来 分 配 内 存 ， 并 得 到 所 有 可 用 的 platform, Fr A Ay 
API 还 是 clGetPlatformIDs。 在 OpenCL 中 ， 类 似 这 样 的 函数 调用 很 常见 第 一 次 调用 
以 取得 数目 ， 便 于 分 配 足 够 的 内 存 ; 然后 调用 第 二 次 以 获取 真正 的 信息 。 现 在 ， 所 有 
的 platform 都 存在 了 变量 platforms 中 ， 接 下 来 需要 做 的 就 是 取得 我 们 所 需 的 platform, 
通过 使 用 clGetPlatformInfo 来 获得 platform 的 信息 。 通 过 这 个 API 以 知晓 platform 的 厂 
商 信息 ， 以 便 我 们 选 出 需要 的 platform。 其 具体 代码 如 代码 清单 4-8 所 示 。 


代码 清单 4-8 ”查询 并 选择 一 个 platform 




















size_tdeviceListSize ; 

cl_uint numPlatforms; // 得 到 并 选择 可 用 平台 

cl_platform_id platform = NULL; 

status =clGetPlatformIDs(0, NULL, &numPlatforms) ; 

if (status ! = CL_SUCCESS) | 
printf(" ERROR; Getting Platforms. (clGetPlatformIDs) \n" ) ; 
return EXIT_FAILURE; 

| 


if (numPlatforms > 0) | 














cl_platform_id * platforms = (cl_platform_id * ) malloc(numPlatforms * sizeof (cl_plat- 
form_id) ) ; 

status = clGetPlatformIDs(numPlatforms, platforms, NULL) ; 

if (status ! = CL_SUCCESS) | 
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( 续 ) 
printf("Error: Getting Platform Ids. (clCetPlatformIDs ) \n" ); 
return —1; 
| 
for (unsigned inti = 0; i <numPlatforms; + +i) {// 遍历 所 有 platform ,选择 你 想 用 的 
charpbuff[ 100] ; 
status =clGetPlatformInfo( platforms[ i} ,CL_PLATFORM_VENDOR , sizeof ( pbuff) , pbuff, 
NULL) ; 
platform = platforms[ i] ; 
if (! stremp(pbuff, " Advanced Micro Devices, Inc." )) | 
break; } 
| 
delete platforms ; 
} 
(2) 创建 上 下 文 (context) 
第 一 步 是 通过 platform 得 到 相应 的 context properties, 第 二 步 是 通过 clCreate- 


ContextFromType 函数 创建 context。 其 具体 代码 如 代码 清单 4-9 所 示 。 


型 


其 中 clCreateContextFromType 函数 的 第 二 个 参数 可 以 设 定 context 关联 的 设备 类 


本 例 使 用 的 是 GPU 作为 OpenCL 计算 设备 。 目 前 可 以 使 用 的 类 别 包括 : 


— CL_DEVICE_TYPE_CPU 

— CL_DEVICE_TYPE_GPU 

— CL_DEVICE_TYPE_ACCELERATOR 
— CL_DEVICE_TYPE_DEFAULT 

— CL_DEVICE_TYPE_ALL 


代码 清单 4-9 在 platform 上 建立 context 








cl_context_properties cps[3] = 1 人 /如果 我 们 能 找到 相应 平台 ,就 使 用 它 ,否则 返回 NULL 
CL_CONTEXT_PLATFORM, , (cl_context_properties ) platform ,0 } ; 
cl_context_properties * cprops = (NULL = = platform) ? NULL : cps 





cl_context context = clCreateContextFromType( cprops ,CL_DEVICE_TYPE_GPU,NULL, 
NULL, &status) ; // 生 成 context 
if (status ! = CL_SUCCESS) | 


printf("Error; Creating Context. (clCreateContexFromType ) \n" ) ; 
return EXIT_FAILURE; 











(3) 查询 与 选择 设备 (device) 
context 创建 好 之 后 ， 要 做 的 就 是 查询 可 用 的 device。 与 获取 platform XW, FÈ 
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们 调用 两 次 clGetContextInfo 来 完成 查询 。 第 一 次 调用 获取 关联 context 的 device 个 
数 ， 并 根据 个 数 申请 内 存 ; 第 二 次 调用 获取 所 有 device 实例 。 如 果 你 想 了 解 每 个 
device 的 具体 信息 ， 可 以 调用 clGetDevicelnfo 函数 来 获取 ， 返 回 的 信息 有 设备 类 型 、 
生产 商 以 及 设备 对 某 些 扩展 功能 的 支持 与 否 等 。 详 细 使 用 情况 请 参阅 OpenCL Spec- 
fcations。 其 具体 代码 如 代码 清单 4-10 所 示 。 


代码 清单 4-10 Æ context 上 查询 device 























// 寻 找 OpenCL 设备 
// 首 先 得 到 设备 列表 的 长 度 
status =clGetContextInfo( context, CL_CONTEXT_DEVICES,0, NULL, &deviceListSize ) ; 
if (status ! = CL_SUCCESS) | 
printf("Error: Getting Context Info device list size ,clGetContextInfo) \n" ) ; 
return EXIT_FAILURE; 
| 
cl_device_id * devices = (cl_device_id * )malloc( deviceListSize ; 
if (devices = = 0) | 
printf("Error; No devices found. \n" ) ; 
return EXIT_FAILURE; 
| 
// 然 后 得 到 设备 列表 
status =clGetContextInfo( context, CL_CONTEXT_DEVICES, deviceListSize ,devices,NULL ; 
if (status ! = CL_SUCCESS) | 
printf("Error: Getting Context Info ( device list,clGetContextInfo) \n" ) ; 
return EXIT_FAILURE; 











(4) 创建 命令 队列 (command queue) 

command queue 是 将 要 执行 的 各 种 命令 。 可 以 通过 clCreateCommandQueue 函数 
创建 。 其 中 的 device 必须 为 context 的 关联 设备 ， 所 有 该 command queue 中 的 命令 
都 会 在 这 个 指定 的 device 上 运行 。 其 具体 代码 如 代码 清单 4-11 所 示 。 


代码 清单 4-11 在 指定 的 device 上 创建 command queue 





cl_command_queuecommandQueue = clCreateCommandQueue( context, devices[ 0 ] ,0,&status); 
if (status ! = CL_SUCCESS) | 

printf("Error: Create Command Queue. (clCreateCommandQueue) \n" ) ; 

return EXIT_FAILURE; 
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2. 编写 OpenCL kernel 
首先 准备 kernal code， 如 果 有 过 shader 编程 经 验 的 人 可 能 会 比较 熟悉 ， 这 里 面 
需要 把 在 每 个 compute item 上 run 的 那个 函数 写成 一 段 二 进 制 字 符 串 ,通常 实现 方 
法 是 写成 单独 的 一 个 文件 (扩展 名 随意 ) ， 然 后 在 程序 中 使 用 的 时 候 二 进 制 读 入 这 
个 文件 。 本 例 的 向 量 相 加 的 Kemal code 如 代码 清单 4-12 TAR 
代码 清单 4-12 ”向 量 相 加 的 kernal code 
const char * kernelSourceCode = KERNEL( 














__kernel void adder(__global const float * a, _ global const float * b, _ global float * result) 


| 
int idx = get_global_id(0); 
result[ idx] = alidx]) +b[idx]; 


| 
j 


) ; 

3. 创建 OpenCL kernel 对 象 

(1) 加 载 OpenCL 内 核 程序 并 创建 一 个 program 对 象 

本 例 中 的 kernel 程序 是 作为 静态 字符 串 读 入 的 (单独 的 文本 文件 也 一 样 )， 所 
以 使 用 的 是 clCreate Program With Source。 其 具体 代码 如 代码 清单 4-13 所 示 。 如 果 
不 想 让 kernel 程序 被 其 他 人 看 见 ， 可 以 先生 成 二 进 制 文件 ， 再 通过 clCreateProgram- 
WithBinary 函数 动态 读 入 二 进 制 文件 ， 进 行 一 定 的 保密 处 理 。 详 细 请 参阅 OpenCL 
Specifications。 


代码 清单 4-13 ”加 载 OpenCL 内 核 程序 并 创建 一 个 program WK 











size_tsourceSize[ ] = {strlen(kernelSourceCode) } ; 
cl_program program = clCreateProgramWithSource( context , 1 , &kernelSourceCode ,sourceSize， 
&status ) ; 
if (status ! = CL_SUCCESS) | 
printf("Error; Loading Binary into cl_program (clCreateProgramWithBinary ) \n" ) ; 
return EXIT_FAILURE; 
| 





(2) 编译 program 中 的 kernel 及 创建 指定 名 字 的 kernel 对 象 

kernel 程序 读 入 完毕 ， 要 做 的 自然 是 使 用 clBuildProgram 编译 kernel ， 最 Z, 
kernel 将 被 相应 device 上 的 OpenCL 编译 器 编译 成 可 执行 的 机 器 码 。 成 功 编译 后 ， 
可 以 通过 clCreateKernel 来 创建 一 个 kernel 对 象 。 引 号 中 的 adder 就 是 kernel 对 象 所 
关联 的 kernel 函数 的 函数 名 。 要 注意 的 是 ， 每 个 kernel 对 象 必 须 关 联 且 只 能 关联 
个 包含 于 相应 program 对 象 内 的 kernel 程序 。 实 际 上 ， 用 户 可 以 在 el 源 代码 中 写 任 
EZ kernel 程序 ， 但 在 执行 某 个 kernel 程序 之 前 必须 先 建立 单独 的 kernel 对 象 ， 
即 多 次 调用 clCreateKernel 函数 。 其 具体 代码 如 代码 清单 4-14 所 示 。 
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代码 清单 4-14 ”编译 program 中 的 kernel 及 创建 指定 名 字 的 kernel 对 象 
status = clBuildProgram( program, 1, devices, NULL, NULL, NULL) ; 
if (status ! = CL_SUCCESS) | 
printf("Error: Building Program (clBuildingProgram) \n" ) ; 
return EXIT_FAILURE; 





| 
j 


cl_kernel kernel =clCreateKernel( program, "adder" , &status) ; 
if (status ! = CL_SUCCESS) | 
printf("Error; Creating Kernel from program. (clCreateKernel) \n" ) ; 


return EXIT_FAILURE; 





4. 设置 Kernel #1, #177 Kernel 

(1) 为 kernel 创建 内 存 对 象 

OpenCL 内 存 对 象 是 指 在 host 中 创建 ， 用 于 kernel 程序 的 内 存 类 型 。 按 维度 可 
以 分 为 两 类 ， 一 类 是 buffer , 一 类 是 image, buffer 是 一 维 的 , image 可 以 是 二 维 、 
三 维 的 texture 、frame - buffer 或 image。 本 例 仅 仅 使 用 buffer， 可 以 通过 clCreate- 
Buffer 函数 来 创建 。 

kernel 函数 需要 三 个 参数 ， 分 别 是 输入 的 两 个 数组 和 一 个 输出 的 数组 ， 这 些 
数 都 要 一 一 创建 准备 好 。 首 先是 输入 的 两 个 输入 数组 ， 其 具体 代码 如 代码 清单 4- 
所 示 。 

代码 清单 4-15 ”输入 数组 初始 化 





for(int i=0;i<DATA_SIZE;i+ +) | 
ali] =i;b[i] =i; 


! 
J 





a Mb 是 我 们 要 运算 的 两 个 输入 数组 (注意 它们 是 位 于 CPU 上 的 ) OpenCL 
计算 的 变量 要 位 于 device 的 存储 上 (例如 GPU 的 全 局 内 存 ) 。 因 此 需要 进行 数据 传 
输 ， 将 输入 数据 从 主机 内 存 传输 到 设备 内 存 上 ， 最 后 还 要 在 设备 内 存 上 分 配 保存 计 
算 结 果 内 存 空 间 。 其 具体 代码 如 代码 清单 4- 16 所 示 。 

代码 清单 4-16 A kernel 创建 内 存 对 象 
cl_memcl_a = clCreateBuffer( context, CL_MEM_READ_ONLY| CL_MEM_COPY_HOST_PTR, si- 
zeof(cl_float) * DATA_SIZE, &a[0], NULL); 
cl_mem cl_b =clCreateBuffer( context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, si- 
zeof(cl_float) * DATA_SIZE, &b[0], NULL) ; 
cl_mem cl_res = clCreateBuffer ( context, CL_MEM_WRITE_ONLY,, sizeof(cl_float) * DATA_ 
SIZE, NULL, NULL) ; 
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(2) 为 kernel 设置 参数 
使 用 clSetKernelArg PAWN kernel 设置 参数 。 传 递 的 参数 既 可 以 是 常数 、 变 量 ， 
也 可 以 是 内 存 对 象 。 本 例 传递 的 就 是 内 存 对 象 。 其 具体 代码 如 代码 清单 4-17 所 示 。 
代码 清单 4-17 X kerne 设置 参数 
ASeKemelArgCadder, 0; cecal a ment), Ada); 
clSetKernelArg( adder, 1, sizeof(cl.mem) , &cl_b) ; 
SsiKeridlAre (adder, 2, sizeof el mem); &ol res) ， 











(3) 将 要 执行 的 kernel 放 入 command queue 
OpenCL 提供 了 三 种 方案 来 创建 kernel 执行 命令 。 最 常用 的 即 为 本 例 所 示 的 运 
行 在 指定 工作 空间 上 的 kernel 程序 ， 使 用 了 clEnqueueNDRangeKernel 函数 。 最 后 可 
以 用 clFinish 函数 来 确认 一 个 command queue 中 所 有 的 命令 都 执行 完毕 。 函 数 会 在 
commandqueue 中 所 有 kernel 执行 完毕 后 返回 。 其 具体 代码 如 代码 清单 4-18 所 示 。 
代码 清单 4-18 将 要 执行 的 kernel ALA command queue 














err = clEnqueueNDRangeKernel( commandQueue, adder, 1, 0, &work_size, 0, 0, 0, 0); 
// 确 认 command queue 中 所 有 命令 都 执行 完毕 


status =clFinish (commandQueue ; 





5. 将 计算 结果 从 GPU 全 局 内 存 传输 到 CPU AF 
计算 完毕 ， 将 结果 读 回 host 端 。 使 用 clEnqueueReadBuffer 函数 将 OpenCLbuffer 
对 象 中 的 内 容 读 取 到 host 可 以 访问 的 内 存 空间 。 其 具体 代码 如 代码 清单 4- 19 所 示 。 
代码 清单 4-19 ”执行 结果 传输 回 host 
err =clEnqueueReadBuffer( commandQueue, cl_res, CL_TRUE, 0，sizeof(float) * DATA_SIZE, 
&res[0], 0, 0, 0); 


6. 释放 内 存 
程序 的 最 后 是 对 所 有 创建 的 对 象 进 行 释放 回收 ,与 C/C + + 的 内 存 回 收 同 理 。 
其 具体 代码 如 代码 清单 4-20 所 示 。 
代码 清单 4-20 BAAS 














status =clReleaseKernel(adder); 

status =clReleaseProgram( program) ; 

status =clReleaseMemObject( cl_a) ; 

status =clReleaseMemObject( cl_b) ; 

status =clReleaseMemObject( cl_res) ; 

status = clReleaseCommandQueue( commandQueue) ; 
status =clReleaseContext( context) ; 


free ( devices) ; 
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4.4 GPU 程序 性 能 优化 分 析 


GPU 程序 优化 是 GPU 程序 设计 中 的 重要 内 容 。 通 过 以 上 章节 对 GPU 硬件 架构 
和 编程 模型 的 分 析 ， 虽 然 GPU 程序 的 优化 和 具体 的 硬件 平台 密切 相关 。 但 从 总 体 
上 看 ,无 论 采 用 何 种 硬件 平台 ， 提 高 GPU 程序 性 能 的 主要 途径 可 分 为 三 个 方面 。 

1. 片 外 访 存 带宽 的 利用 率 

全 局 内 存 容 量 大 ， 但 访 存 带 宽 相 对 较 低 ， 有 具有 较 高 的 访 存 延 迟 ， 是 限制 CPU 
程序 性 能 的 主要 因素 之 一 。 充 分 考虑 CPU 访 存 特 点 ， 提 高 片 外 访 存 带宽 利用 率 ， 
降低 访 存 延 迟 ， 是 提高 CPU 程序 性 能 的 关键 。 

2. 计算 资源 的 有 效 利用 率 

GPU 拥有 大 量 的 计算 单元 ， 具 有 强大 的 计算 能 力 。 充 分 考虑 GPU 架构 特点 和 
调度 策略 ， 以 有 效 地 利用 这 些 计算 单元 ， 避 免 计算 单元 的 闲置 ， 是 提高 GPU 程序 
性 能 的 主要 途径 。 

3. 数据 本 地 化 

GPU 中 提供 了 本 地 内 存 、cache 等 片上 资源 ， 具 有 较 高 的 访 存 带宽 和 较 低 的 访 
存 延 迟 。 充 分 利用 这 些 片 上 资源 实现 数据 的 共享 和 重用 ， 减 少 对 片 外 资源 的 访 存 次 
数 ， 是 提高 GPU 程序 性 能 的 主要 方法 。 

虽然 ， 由 于 GPU 硬件 架构 的 差异 ，GPU 程序 在 优化 方法 和 优化 策略 的 选择 上 
也 存在 差异 性 。 但 GPU 程序 优化 的 本 质 是 一 样 的 ， 都 是 实现 从 算法 特性 到 底层 硬 
件 架 构 特 征 的 有 效 映射 。 因 此 无 论 采 用 何 种 GPU 架构 ， 其 优化 的 方向 和 途径 却 相 
似 ， 这 也 为 CPU 程序 的 性 能 可 移植 提供 了 可 能 。 


4.5 本 章 小 结 








Dy 











在 深入 了 解 NVIDIA 和 AMD 这 两 种 GPU 硬件 架构 特征 的 基础 之 后 ， 本 章 分 析 
介绍 了 相对 应 的 GPU 编程 模型 : CUDA 编程 模型 和 OpenCL 编程 模型 。 并 以 向 量 相 
加 为 例 ， 分 别 介绍 了 两 种 GPU 编程 模型 的 具体 流程 ， 比 较 其 相同 点 与 不 同 点 ， 以 
及 从 更 高 的 角度 ， 研 究 不 同 GPU 在 底层 硬件 架构 设计 上 的 共通 性 ， 并 以 此 研究 实 
现 性 能 移植 的 可 行 性 。 最 后 ， 指 出 了 提高 CPU 程序 性 能 的 三 大 途径 : 提高 片 外 访 
存 带宽 的 利用 率 、 提 高 计算 资源 的 有 效 利用 率 以 及 数据 本 地 化 。 
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异 构 计 算 主要 是 指使 用 不 同类 型 指令 集 和 体系 架构 的 计算 单元 组 成 系统 的 计算 
方式 ， 通 过 这 种 计算 方式 实现 不 同类 型 的 计算 设备 共享 计算 的 过 程 和 结果 。 本 章 所 
述 的 异 构 ， 主 要 是 指 CPU 与 CPU 之 间 的 异 构 计算 。 虽 然 异 构 计 算 能 够 解决 通过 提 
升 CPU 时 钟 频率 和 内 核 数量 来 提高 计算 能 力 的 传统 方式 遇 到 的 散热 和 能 耗 瓶 颈 问 
题 ， 但 GPU 等 专用 计算 单元 的 高 效 利用 非常 困难 。 为 了 能 够 更 加 高 效 地 利用 这 些 
计算 单元 ， 需 要 理解 不 同 的 架构 并 根据 这 些 特性 进行 优化 。 本 章 主 要 讨论 CPU 的 
访 存 优化 ， 以 及 在 矩阵 转 置 算法 、 规 约 算法 resize 算法 和 Laplace 算法 上 的 应 用 。 











5.1 视频 图 像 处 理 算法 


图 像 是 各 种 图 像 和 影音 的 总 称 ， 能 为 人 类 展现 一 个 形象 的 思维 模式 ， 有 助 于 信 
息 的 获取 、 传 递 和 表达 。 在 许多 场合 ， 视 频 图 像 所 传递 的 信息 比 其 他 任何 形式 更 加 
丰富 和 真切 ， 由 此 可 见 ， 图 像 信息 是 非常 重要 的 。 随 着 相关 科学 技术 的 迅猛 发 展 ， 
人 们 对 信息 量 的 需求 越 来 越 大 ， 人 们 开始 通过 各 种 媒体 工具 获取 视频 图 像 ， 再 通过 
相关 的 视频 图 像 处 理 算 法 对 所 获得 的 视频 图 像 进行 处 理 ， 从 视频 图 像 中 抽取 某 些 有 
用 的 度量 、 数 据 或 信息 ， 用 于 各 种 自动 化 的 系统 。 目 前 ， 视 频 图 像 处 理 已 经 成 为 人 
们 认识 世界 、 改 造 世 界 的 重要 手段 。 

视频 图 像 处 理 是 通过 计算 机 对 视频 图 像 进 行 分 析 ， 通 过 去 品 、 增 强 、 复 原 、 分 
割 、 特 征 提取 等 处 理 技术 与 方式 以 达到 所 需 结 果 的 技术 。 视 频 图 像 处 理 算 法 主要 有 
滤波 、 几 何 变换 、 其 他 变换 、 直 方 图 、 结 构 分 析 与 形状 描述 符 、 运 动 分 析 与 目标 跟 
踪 、 特 征 提取 和 目标 检测 八大 类 。 每 个 类 别 都 广泛 应 用 于 安防 监控 、 智 能 驾驶 、 航 
空 航天 和 医学 研究 等 多 个 领域 。 

随 着 科 拉 的 迅猛 发 展 ， 人 们 对 信息 的 需求 日 益 增 加 ， 对 信息 的 实时 提取 和 处 理 
有 了 更 高 的 要 求 。 然 而 通过 提升 CPU 时 钟 频率 和 内 核 数 量 而 提高 计算 能 力 的 传统 
方式 遇 到 的 散热 和 能 耗 瓶 希 问 题 ， 视 频 图 像 实 时 处 理 面 临 更 大 的 挑战 。 高 性 能 计算 
目前 正 处 于 快速 发 展期 ， 基 于 CPU - GPU 异 构 系 统 这 样 一 种 新 的 满足 高 性 能 计算 
的 架构 应 运 而 生 ， 使 得 我 国 在 高 性 能 计算 领域 的 研究 工作 走 到 了 国际 发 展 的 前 列 。 
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与 CPU 相 比 ，GPU 具有 更 高 的 计算 能 力 和 访 存 带宽 ， 大 规模 细 粒 度 并 行 的 特性 也 
可 以 充分 挖掘 算法 的 并 行 特性 ， 这 将 极 大 提升 图 像 处 理 算法 的 性 能 。 在 协同 并 行 计 
算 时 ，CPU 和 GPU 应 各 取 所 长 ， 快 速 、 高 效 协同 地 完成 高 性 能 计算 任务 。 除 管理 
GPU 计算 任务 外 ，CPU 也 应 当 承 担 一 部 分 科学 计算 任务 。 本 章 主要 分 析 和 矩阵 转 置 
算法 、 规 约 算法 、resize 算法 、Laplace 算法 等 多 个 视频 图 像 处 理 算法 当前 所 面临 的 
性 能 瓶颈 问题 ， 并 通过 异 构 计算 平台 解决 性 能 瓶颈 问题 ， 使 其 具有 更 高 的 工业 价 
值 。 最 后 ， 提 出 解决 视频 图 像 处理 算 法 性 能 瓶颈 问题 的 一 般 解 决 方案 。 


5.2 访 存 优化 方法 


访 存 优 化 对 计算 性 能 的 提升 有 着 至 关 重要 的 作用 。 访 存 优 化 的 目的 就 是 通过 最 
大 化 访 存 带宽 ， 充 分 利用 硬件 资源 ， 除 了 尽 可 能 使 用 低 延 迟 的 内 存 ， 还 要 根据 不 同 
硬件 和 算法 的 特性 进行 优化 和 精细 调 优 。 其 中 Jang 等 人 通过 提高 应 用 程序 的 访 存 
效率 的 方式 ， 使 所 有 执行 单元 保持 忙碌 ， 从 而 提高 算法 性 能 。Che 等 人 提出 了 一 个 
简单 的 允许 程序 员 优 化 内 存 映射 的 API 来 提高 在 异 构 计 算 平 台 上 的 访 存 效率 。 
Chien 等 人 使 用 一 种 有 电阻 式 随机 存 取 存储 器 和 DRAM 组 成 的 混合 主 存储 器 架构 的 
访问 算法 ， 使 数据 访问 趋势 迁移 ， 最 终 达 到 降 能 耗 、 提 高 异 构 计 算 系 统 的 速度 的 目 
的 。 许 瑾 晨 等 人 使 用 一 种 基于 访 存 指令 的 调度 策略 并 结合 动态 调用 方式 ， 减 少 算法 
访 存 开销 ， 提 高 访 存 速 度 。 徐 金龙 等 人 针对 SIMD 代码 的 向 量 访 存 优化 方法 ， 分 析 
程序 是 否 需要 优化 ， 若 存在 需求 ， 则 对 程序 同时 进行 深度 元 余 优化 和 对 章 优化 ， 明 
显 提高 算法 的 性 能 。S. Xu 和 D. Gregg 等 人 介绍 了 一 系列 编译 克 指 令 帮 助 程序 员 全 
局 数据 布局 转换 申请 更 好 的 向 量化 。 贾 海 鹏 、 张 云 泉 等 人 是 基于 OpenCL 平台 ， 验 
证 了 向 量化 在 NVIDIA 和 AMD 两 个 GPU 平台 上 都 取得 了 良好 的 加 速效 果 。 

本 节 主 要 针对 NVIDIA GPU 讨论 在 异 构 平台 上 的 一 般 访 存 优化 策略 。 


5.2.1 CPU 5 GPU 之 间 的 传输 优化 


CPU 与 GPU 之 间 的 数据 传输 是 CPU 程序 的 主要 性 能 瓶颈 ， 即 使 在 Tegra X1 平 
台 上 ， 虽 然 device 和 host 内 存 共享 ， 但 是 device 端 与 host 端 之 间 的 数据 传输 也 是 
整个 算法 性 能 主要 瓶颈 之 一 。 内 存 分 为 pageable memory 和 pinned memory。 如 图 5-1 
所 示 ， 当 将 数据 从 host 传 到 device 时 ， 需 要 先 将 pageable memory 传 到 pinned mem- 
ory， 所 以 pinned memory 无 论 是 device 与 host 还 是 device 与 device 之 间 传 输 速率 都 
远大 于 pageable memory 的 传输 速率 。 

以 NVIDIA Tegra X1 为 例 ， 传 输 32MB 的 数据 ， 在 pinned memory 上 host 传输 到 
device 的 传输 速率 的 带宽 为 9892. 3MB/s, device 传输 到 host 的 传输 速率 的 带宽 为 
10076. 1MB/s。 而 在 pageable memory E, host 传输 到 device 的 传输 的 实际 带宽 为 
2236. 1MB/s device 传输 到 host 的 传输 的 实际 带宽 为 1958. 4MB/s， 而 device 之 间 
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图 5-1 数据 传输 
传输 的 实际 带宽 达到 17919. 4MB/s。 因 此 ， 选 择 合适 的 内 存 可 以 实现 数据 传输 的 
优化 。 
实际 上 ，CUDA 提供 一 种 允许 GPU 线程 直接 访问 host 端的 pinned memory 的 机 
制 ， 称 为 zero copy。 通 过 线程 与 底层 便 件 的 直接 映射 ， 即 可 以 减少 数据 传输 的 消 
耗 。 值 得 一 提 的 是 ， 若 在 NVIDIA Tegra X1 和 NVIDIA Tegra K1 中 无 法 标识 已 分 配 
内 存 为 pinned memory , 只 能 重新 分 配 一 块 pinned memory。 











5.2.2 global memory 的 合并 访问 


global memory 在 GPU 的 存储 层次 中 容量 最 大 ,但 访 存 延迟 又 很 高 。 但 是 ,在 
GPU 编程 过 程 无 法 避免 使 用 global memory。 因 此 ，global memory 的 访 存 优化 对 整个 
GPU 程序 的 性 能 有 着 至 关 重 要 的 作用 。 

A Fermi 架构 以 来 ，NVIDIA GPU 引入 了 一 级 和 二 级 缓存 ， 要 求 在 global memory 的 
访 存 中 每 个 warp 访 存 的 大 小 是 一 个 128B 的 cache line 或 多 个 cache line。 因 此 ，CU- 
DA 中 提供 了 一 种 合并 访 存 机 制 优化 global memory 访 存 。 合 并 访 存 是 指 当 一 个 warp 
访 存 的 数据 是 连续 的 、 对 齐 的 (必须 对 齐 在 内 存 地 址 的 32B 的 整数 倍 上 ) 且 数 据 
大 小 是 128B 的 整数 倍 时 ，warp 内 线程 的 访 存 会 被 合并 为 一 次 或 多 个 访 存 。 如 果 
warp 的 每 个 线程 访问 相 邻 的 4B 的 数据 ， 并 且 warp 对 齐 在 128B 的 内 存 片 断 上 ， 那 
么 可 以 实现 global memory 合并 访 存 机 制 如 图 5-2 所 示 。 如 果 warp 与 内 存 映射 没有 
对 齐 ， 访 存 机 制 如 图 5-3 所 示 。 因 此 ， 实 现 warp 与 内 存 映 射 的 对 齐 和 充分 利用 
cache line 可 以 有 效 提高 global memory 的 访 存 效率 。 

addresses from a warp 


hii dd 























图 5-2 global memory 合并 访 存 机 制 
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addresses from a warp 
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0 128 256 384 
图 5-3 访 存 机 制 


因此 ， 在 global memory 的 访 存 优化 中 应 该 尽 可 能 使 其 合并 访 存 或 充分 利用 
cache line 机 制 。global memory 访 存 的 连续 性 和 对 齐 就 显得 尤为 重要 ， 无 论 是 访 存 
的 不 连续 还 是 不 对 齐 都 会 导致 访 存 效率 急剧 下 降 。 在 访 存 连续 且 对 齐 的 情况 下 , 一 
般 通 过 向 量化 可 以 实现 global memory 的 合并 访 存 或 者 cache line 的 充分 利用 。 




















5.2.3 shared memory 


shared memory 是 片上 内 存 ， 因 而 相对 于 global memory 拥有 更 高 的 访 存 带宽 和 
更 低 的 访 存 延迟 。 在 硬件 设计 上 为 了 实现 更 高 的 访 存 带宽 ，shared memory 被 分 成 
等 大 小 的 内 存 模块 一 一 bank， 因 此 ， 同 一 周期 里 个 不 同 的 bank 可 以 同时 被 nn 个 
线程 访问 ， 从 而 实现 了 一 个 高 效 的 shared memory 访 存 ， 如 图 5-4 所 示 。 

由 于 同一 bank 在 某 一 个 时 刻 只 能 被 warp 内 的 一 个 线程 所 访问 ， 当 warp 内 不 
同 线程 访问 同一 个 bank 就 会 造成 bank 冲突 ， 将 会 导致 访 存 带宽 的 严重 下 降 ， 其 至 
访 存 带 宽 低 于 global memory 的 访 存 带 宽 ， 如 图 5-5 所 示 。 解 决 或 缓解 bank 冲突 需 
要 清晰 地 理解 内 存 地 址 和 bank 之 间 的 映射 关系 (尤其 需要 关注 数据 类 型 )， 从 而 
选择 最 优 的 线程 和 硬件 的 映射 关系 。 














线程 存储 体 


线程 O 存储 体 





图 $-4 bank 理想 状态 图 5-5 存储 体 冲突 (bank Conflict) 
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此 外 还 需要 根据 不 同 GPU 架构 特性 ， 充 分 利用 shared memory 的 人 硬件 资源 。 比 
如 可 以 通过 数据 本 地 化 将 数据 从 片 外 内 存 转 移 到 片 内 (register, shared memory) , 
并 实现 数据 共享 ， 以 此 来 减少 对 片 外 内 存 访 存 的 依赖 。 因 此 ， 可 以 通过 数据 本 地 
化 ， 提 高 shared memory 的 利用 率 ， 减 少 对 global memory 的 访 存 依赖 ， 从 而 提高 算 
法 性 能 。 


5.2.4 寄存 器 


寄存 器 是 线程 私有 的 存储 空间 ， 也 是 GPU 的 存储 空间 中 访 存 带 宽 最 高 的 ， 它 
的 访 存 延迟 几乎 为 零 。 人 但是， 寄存器 的 数量 是 有 限 的 ， 在 NVIDIA Kepler 和 Maxwell 
架构 的 GPU 上 每 个 SM ABA 64K 个 32 位 寄存 器 。 因 此 合理 分 配 和 使 用 寄存 器 可 以 
极 大 地 提高 算法 性 能 。 

除 此 之 外 ， 在 寄存 右 充 足 情况 下 还 可 以 优先 通过 数据 本 地 化 把 数据 从 片 外 转移 
到 寄存 器 中 可 以 实现 比 转移 到 shared memory 更 高 的 访 存 带宽 。 


5.3 ”和 矩阵 转 置 算法 











5.3.1 算法 简介 及 分 析 


和 矩阵 转 置 是 最 基本 的 矩阵 运算 之 一 ， 也 是 科学 计算 中 的 常见 方法 ， 特 别 是 对 元 
素 个 数 超过 计算 机 内 存 的 大 规模 矩阵 进行 转 置 ， 是 交替 方向 隐 式 方法 (ADI), I 
速 傅 里 叶 变 换 (FFT) 、 数 值 天 气 预报 (NWP) 以 及 许多 其 他 大 规模 科学 与 工程 计 
算 中 经 常 遇 到 的 问题 。 解 决 大 规模 矩阵 转 置 中 内 存 容量 要 求 大 、 速 度 要 求 高 的 问 
题 ， 对 于 加 快 矩阵 运算 ， 提 高 计算 效率 有 着 重要 的 现实 意义 和 应 用 价值 。 

若 存 在 矩阵 ， 即 m 47 n SFE A, WA 矩阵 的 第 i 行 第 j 列 元 素 为 x;。 把 矩阵 
A 的 行 换 成 相应 的 列 ， 得 到 的 新 和 矩阵 称 为 4 的 转 置 矩阵 如， 即 ， 于 是 称 B 为 4 的 
Hen, PRN B =A", 

传统 的 串 行 矩阵 转 置 算法 ， 以 C 语言 二 维 数组 转 置 为 例 ， 编 译 器 将 数组 按 行 
优先 进行 存放 ， 和 矩阵 转 置 实现 过 程 可 以 通过 两 层 的 for 循环 ， 将 原 矩 阵 按 行进 行 顺 
序 读 取 ， 青 将 所 读 取 数 据 按 列 顺序 写 入 到 目标 矩阵 ， 其 实现 逻辑 与 编码 难度 其 为 直 
观 人 简单 ， 当 外 层 循环 遍历 完 最 后 一 行 ， 则 输出 矩阵 最 后 一 列 也 完成 输入 ， 从 而 完成 
整个 矩阵 转 置 。 


5.3.2 并 行 性 分 析 


1. 并 行 矩 阵 转 置 算法 简 述 
由 矩阵 转 置 算 法 的 定义 可 知 ， 和 矩阵 转 置 过 程 中 数据 与 数据 之 间 不 存在 依赖 ， 
把 线程 对 原 矩 阵 的 读 取 操作 和 对 转 置 矩阵 写 人 操作 作为 元 操作 ， 则 元 操作 之 间 具 
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高 度 的 独立 性 ， 不 存在 数据 依赖 。 因 此 和 抑 阵 转 置 过 程 可 以 简要 描述 为 三 个 步骤 : 

口 读 取 原 矩阵 元 素 。 

口 计算 索引 映射 。 

OSA ATE 

通过 GPU 启动 大 量 的 线程 ， 线 程 之 间 的 操作 互 不 影响 ， 线 程 取 出 ID 对 应 的 元 
素 ， 找 到 索引 映射 后 独立 写 入 转 置 矩阵 位 置 ， 由 于 每 个 线程 所 操作 的 元 素 各 不 相 
同 ， 所 进行 的 索引 映射 也 不 相同 ， 最 后 的 结果 位 置 写 入 操 作 也 不 存在 冲突 ， 由 此 可 
以 发 现 矩 阵 转 置 的 高 度 并 行 性 ， 通 过 利用 GPU 众多 的 计算 单元 ， 通 过 众多 线程 处 
理 各 自 的 数据 单元 ， 线 程 之 间 独 立 执行 ， 实 现 转 置 算法 的 高 度 并 行 化 。 

2. 并 行 和 矩阵 转 置 算法 基本 实现 

和 矩阵 转 置 算法 在 GPU 的 基本 实现 极为 直观 ,根据 上 述 的 三 个 步骤 ，Naive 
Transpose 可 描述 为 : 

O 读 取 原 矩阵 元 素 : 线程 通过 内 建 函 数 获取 线程 的 全 局 ID ， 记 为 x，y， 通 过 
x, y 结合 矩阵 的 高 和 宽 ， 即 row 和 col， 进 而 计算 线程 对 应 于 原 和 矩阵 A 的 元 素 索 引 
indexIn， 并 读 出 该 元 素 A(x,y)。 

口 计算 索引 映射 : 通过 x，y，row 和 col， 计算 线程 对 应 于 日 标 转 置 矩 阵 的 索引 
indexOut，( 即 每 一 行 的 索引 转换 成 每 一 列 的 索引 ) 。 

D BARAER: 把 元 素 写 人 到 目标 转 置 矩 阵 妃 的 indexOut 位 置 ， 完 成 B(y， 
x) =4(x,y)，( 即 4 和 矩阵 每 一 行 的 元 素 写 入 B 和 矩阵 的 每 一 列 )。 

其 执行 过 程 如 图 5-6 所 示 。 
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图 5-6 Naive Transpose 转 置 过 程 


块 内 的 所 有 线程 必须 存在 于 同一 个 处 理 需 核心 中 且 共 享 核心 有 限 的 存储 器 资 
源 ， 所 以 一 个 块 内 的 线程 数目 有 限 。 一 个 内 核 可 被 多 个 同样 大 小 的 线程 块 执行 ， 所 
以 总 的 线程 等 于 每 个 块 内 的 线程 数 乘 以 线程 块 数 。 线 程 块 可 被 组 织 成 一 维 、 二 维 或 
三 维 的 线程 网 格 。 每 个 执行 内 核 的 线程 拥有 一 个 独一无二 的 线程 ID， 可 以 通过 内 
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置 的 ThreadIdx 变量 在 内 核 中 访问 ( 块 内 唯一 ) 。 线 程 块 必须 独立 执行 。 而 且 能 够 
以 任意 顺序 ， 串 行 或 并 行 执 行 。 这 种 独立 性 要 求 使 得 线程 块 可 以 以 任何 顺序 在 任意 
数目 核心 上 调度 。 

原 和 矩阵 与 转 置 矩 阵 在 转 置 过 程 中 的 数据 存放 于 global memory, MJE MEFE EPIT 
算法 可 以 确定 出 矩阵 转 置 并 行 算法 的 基本 映射 关系 ， 即 相同 偶 移 量 的 线程 处 理 相同 
偏 移 量 的 数据 ， 如 图 5-6 所 示 。 


5.3.3 矩阵 转 置 算法 优化 


在 CPU 程序 中 ， 每 个 计算 数据 都 需要 输入 和 输出 两 次 地 址 空间 的 计算 ， 每 次 
地 址 空间 的 计算 需要 4 次 浮 点 数 计算 。 优 化 程序 的 关键 就 在 于 如 何 提高 访 存 带宽 的 
利用 率 。 

本 节 将 会 以 并 行 和 矩阵 转 置 算 法 为 例 ， 以 Naive Transpose 为 起 点 ， 逐 步 地 探求 并 
行 和 矩阵 转 置 算法 的 优化 策略 ， 以 追求 Copy - Data Kernel 的 高 性 能 。 

1. global memory 合并 访问 

从 5.3.2 小 节 可 知 ，Naive Transpose 相 较 于 Copy - Data Kernel， 其 主要 不 同 之 
处 在 于 线程 把 数据 写 人 转 置 和 矩阵 〈 结 果 和 矩阵 ) 位 置 的 不 同 ，Naive Transpose 以 行 顺 
序 读 取 原 和 矩阵 的 元 素 ， 再 以 列 顺序 写 入 转 置 矩阵 ， 而 Copy - Data Kernel 以 行 顺序 
读 取 原 和 矩阵 的 元 素 ， 再 以 行 顺 序 写 入 转 置 矩阵 。 两 个 过 程 的 操作 对 象 均 为 global 
memory。 从 分 析 可 知 ， 线 程 对 global memory 的 读 写 访问 方式 极 大 地 影响 着 对 global 
memory 存储 带宽 的 有 效 利用 。 

Naive Transpose 算法 效率 较 差 的 很 大 原因 在 于 写 入 数据 时 是 写 入 转 置 和 矩阵 中 的 
一 列 ， 因 为 数据 的 局 部 性 ， 保 证 连续 线程 对 访问 连续 的 global memory 地 址 十 分 重 
要 。 从 图 5-4 和 图 5-5 的 线程 执行 过 程 可 知 ，Naive Transpose 和 Copy - Data Kernel 
在 对 global memory 的 读 操作 均 符合 合并 访问 条 件 。 而 Naive Transpose 在 global 
memory 空间 的 写 操作 中 ， 是 按 列 进行 写 入 的 ， 不 符合 合并 访问 条 件 。 

为 了 避免 对 global memory 的 非 合 并 访问 ， 可 利用 shared memory 作为 中 转 ， 通 
过 计算 数据 索引 的 映射 关系 ， 实 现 对 global memory 读 出 写 人 操作 的 合并 访问 ， 从 
而 提升 算法 性 能 。 按 以 上 分 析 ， 提 出 Coalesced Transpose 并 行 矩 阵 转 置 算 法 ， 其 转 
置 过 程 如 图 5-7 所 示 。 

Coalesced Transpose 并 行 和 矩阵 转 置 算法 为 了 能 够 完成 对 global memory 的 合并 读 
写 ， 需 要 线程 将 原 和 矩阵 元 素 加 载 至 shared memory， 此 处 使 用 了 大 小 为 32 x 32 的 
block ， 每 一 个 block 负责 的 32 x32 大 小 的 数据 块 转 置 ，block 内 的 线程 将 原 矩 阵 的 
数据 读 入 到 shared memory 当中 ， 此 过 程 对 global memory 为 合并 读 和 操作， 如 图 5-7 
所 示 。shared memory 为 片上 内 存 ， 其 读 写 速度 高 于 global memory 的 读 写 速度 ， 
shared memory 不 需 担心 出 现 如 global memory 般 的 非 合 并 访问 问题 。 因 此 shared 
memory 作为 中 间 内 存 完成 对 目标 转 置 矩 阵 的 合并 写 入 ,能够 有 效 地 避免 对 global 
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A|5-7 Coalesced Transpose 合并 访问 global memory 


memory 非 合 并 访问 带 来 的 性 能 下 降 。 在 Coalesced Transpose 转 置 过 程 中 ， 每 一 个 
block 的 线程 利用 所 属 的 ID 对 转 置 后 的 元 素 位 置 索引 进行 映射 计算 ， 从 而 实现 合 # 
ERE, 

2. Shared Memory Bank - Conflict - Free 

Coalesced Transpose 算法 虽然 相 较 于 Naive Transpose 性 能 得 到 提升 ,然而 距 
Copy - Data Kernel 的 性 能 仍 有 不 少 距离 。 上 部 分 分 析 了 global memory 的 合并 访问 
优化 能 够 带 来 性 能 的 提升 ， 本 部 分 将 对 本 地 内 存 (shared memory) 的 访 存 方式 进 
行 分 析 ， 以 进一步 提升 算法 性 能 。 

如 果 在 一 个 block 中 有 多 个 线程 同时 访问 同一 个 bank， 访 问 操作 将 被 按 序 列 号 
即 串 行 执 行 ， 这 种 情况 称 为 存储 体 冲突 (bank conflict)， 如 图 所 示 。bank conflict 
的 产后 意味 着 访问 操作 的 串 行 化 ,严重 影响 对 shared memory 的 有 效 利用 。 

可 以 发 现 ，Coalesced Transpose 算法 对 shared memory 的 操作 如 图 5-8 tas, Æ 
开启 线程 数目 为 4 x4， 共 享 内 存 有 4 个 bank， 相 邻 线程 读 取 共 享 内 存 数据 的 内 存 
跨度 为 4 个 bank， 这 样 就 会 产生 4 路 bank 冲突 ， 限 制 了 共享 内 存 的 访 存 性 能 。 由 
F bank 的 数量 受 硬件 的 限制 ， 所 以 有 时 没 法 增加 ， 为 了 解决 矩阵 转 置 过 程 中 
shared memory 的 bank confict， 有 一 个 简单 直接 的 方法 : 在 申请 shared memory 内 存 
时 添加 一 列 (padding) ， 以 对 内 存 地 址 进行 错开 ， 即 列 数 N 与 4 互 质 。 通 过 增加 
padding 后 ， 访 问 情况 将 从 图 5-8 的 方式 变 成 图 5-9 的 方式 ,注意 ,图 5-9 的 访问 
方式 中 ， 连 续 4 个 线程 访问 连续 的 bank， 因 此 不 存在 bank conflict, 
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图 5-8 bank conflict 图 $-9 使 用 padding 解决 bank conflict 


根据 图 5-9 的 访问 方式 ， 提 出 Bank Conflict Free Transpose 算法 ， 该 算法 通过 使 
用 padding 而 避免 了 bank conflict。 通 过 申请 shared memory 空间 时 增加 padding， 即 
可 完成 对 连续 bank 的 并 行 访问 操作 ， 从 图 5-9 可 知 ， 解 决 bank conflict. 

3. channel conflict 优化 

通道 冲突 (channel conflict) 与 shared memory 的 bank conflict 类 似 ， 当 warp 中 
多 个 线程 同时 访问 一 个 bank， 将 会 产生 bank conflict， 其 产生 原因 为 warp 的 内 部 线 
程 不 合理 操作 ， 而 channel conflict 是 针对 活跃 block 而 言 的 ， 即 活跃 block 不 均衡 分 
配 到 channel， 导 致 只 有 少量 channel 在 工作 。 

以 global memory 被 分 为 8 个 channel 的 GPU 为 例 ， 每 个 channel 是 256B 宽 ， 当 
所 有 活跃 的 block 能 够 均匀 地 分 配 到 global memory 的 channel 时 ， 能 对 global memo- 
ry 实现 并 行 访问 。 然 而 当 所 有 block 只 分 配 到 少量 的 channel 而 导致 其 他 channel 的 
空闲 ， 那 么 对 活跃 work - group 对 少量 channel 的 同时 访问 将 会 导致 串 行 化 ， 降 低 
global memory 的 访 存 效率 。 

为 了 更 高 效 地 使 用 全 局 内 存 ， 让 所 有 活跃 的 block 均匀 地 分 配 到 所 有 channel, 
以 实现 并 行 访问 。 由 于 channel conflict 的 产生 与 活跃 的 block 的 调度 有 关 ， 因 此 如 
何 有 效 地 利用 block id 索引 是 有 效 减 少 channel conflict 的 重要 方式 ， 线 程 可 以 通过 
block 的 坐标 ， 以 进行 适当 的 block 索引 映射 ， 以 解决 channel conflict, 

进一步 分 析 ， 当 global memory 含有 8 个 channel， 每 个 channel 的 宽度 为 256B, 
因此 ， 相 差 2048B 的 访 存 动作 将 会 映射 到 相同 的 channel， 导 致 操作 的 串 行 化 。 以 
float 元 素 和 矩阵 为 例 ， 当 列 数 为 512 倍数 时 ， 同 一 列 的 访 存 将 映射 到 同一 个 channel 
当中 。 以 block 所 负责 处 理 的 shared memory 矩阵 大 小 为 32 x32 ( 即 128B x 128B) 
为 例 ， 相 邻 的 两 个 block 的 访 存 操作 将 会 映射 到 同一 个 channel 当中 ， 以 此 类 推 ， 
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详情 如 图 5-10 所 示 。 





输入 














图 5-10 channel conflict 


使 用 共享 内 存 只 能 够 解决 block 内 部 的 非 连续 访 存 问 题 ， 但 是 仍 不 能 解决 并 行 
执行 的 warp 发 起 的 访 存 请 求 所 造成 的 全 局 内 存 通道 冲突 。 理 论 上 可 以 通过 pank 
conflict free 的 方法 来 解决 此 问题 ， 然 而 需要 大 量 的 空间 写 人 ， 无 疑 增加 了 算法 的 复 
杂 性 。 因 此 ， 通 过 使 用 Diagonal 坐标 转换 ， 对 每 个 grid 处 理 的 数据 块 进行 重新 排 
序 ， 使 相 邻 的 数据 块 在 计算 时 不 相 邻 ， 如 图 5- 11 所 示 。 











5-11 对 角 坐 标 映射 


5.3.4 性 能 分 析 


本 节 实 验 运行 的 GPU X NVIDIA Tegra K1， 处 理 时 钟 852MHz, CUDA Corel92 
个 ，warp 大 小 为 32。 

从 下 面 的 性 能 图 中 我 们 可 以 得 出 ， 经 过 GPU 的 优化 后 ， 和 矩阵 转 置 程序 的 性 能 
得 到 了 较为 明显 的 提升 ， 其 中 除了 512 个 x 512 个 的 数据 规模 以 外 ， 消 除 bank 冲 
突 对 算法 性 能 提升 最 大 。 

从 图 5-12 中 我 们 发 现 数据 规模 为 2048 个 x 2048 个 时 ， 出 现 了 优化 后 反而 效 
率 降低 的 现象 。 原 因 是 share memory 中 共有 32 个 bank, block 的 线程 组 织 为 16 x 
16， 所 以 并 没有 很 好 地 消除 bank 冲突 。 线 程 块 大 小 ， 为 32 x 8 的 性 能 图 如 图 5-13 
(WL) 所 示 。 
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线程 块 大 小 : 32x8 
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图 5-13 线程 块 大 小 为 32 x8 的 性 能 图 


当 block 为 16 x 16 时 ， 对 于 global memory 的 合并 访问 的 优化 是 比较 明显 的 。 
但 是 ， 对 shared memory 的 bank 冲突 的 优化 并 不 理想 ， 甚 至 性 能 还 有 所 降低 。 在 
Greg Ruetsch 等 人 编写 的 《Optimizing Matrix Transpose in CUDA》 中 ， 在 针对 K20X 
( Kepler) shared memory 的 bank 冲突 的 优化 的 时 候 性 能 同样 有 所 降低 ， 具 体 如 图 
5-14 ( 见 彩 插 ) 所 示 (数据 规格 2048 x 2048, block 为 32 x32)。 性 能 下 降 有 很 大 
部 分 的 原因 在 于 NVIDIA 公司 已 经 对 TK1 的 shared memory 的 cache 优化 足够 好 ， 以 
至 于 bank 冲突 的 延迟 并 不 明显 ， 而 bank 冲突 的 优化 加 入 增加 一 部 分 的 计算 量 ， 最 
终 导 致 性 能 略微 下 降 。 

相对 而 言 ，block 为 32 x32 时 shared memory 的 bank 冲突 的 优化 是 比较 明显 
的 。 优 化 后 的 最 高 带宽 为 7. 11GB/s。 
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为 了 看 出 不 同情 况 下 ， 和 拖 阵 转 置 并 行 算法 的 优化 效果 。 用 平均 数据 算出 相对 于 
CPU 的 加 速 比 ， 如 图 5-12 ~ 图 5-14 (UEH) 所 示 。 

从 这 三 幅 图 可 以 看 出 ，block 大 小 为 16 x 16 的 最 优 加 速效 果 高 于 block 大 小 为 
32 x32 的 加 速效 果 。 最 高 加 速 比 达到 44 倍 。 这 时 的 数据 规模 也 是 1024 x 1024, 
block 大 小 为 16 x16。 总 体 来 讲 ， 数 据 规模 为 1024 x 1024, block 大 小 为 16 x 16 时 ， 
在 该 平台 上 的 加 速 最 优 。 

从 图 中 也 可 以 发 现 ， 解 决 channel conflict 的 问题 并 没有 对 算法 的 提升 带 来 明显 
的 优化 ， 甚 至 会 由 于 索引 坐标 的 计算 而 导致 计算 数据 量 增 大 从 而 降低 了 效率 。 


5.4 规约 算法 








5.4.1 算法 简介 及 分 析 


规约 算法 在 科学 计算 和 图 像 处理 等 领域 有 着 十 分 广泛 的 应 用 ， 是 并 行 计算 的 基 
本 算法 之 一 。 规 约 算 法 可 以 理解 成 将 大 量 数据 逐 层 减少 直到 少量 数据 甚至 一 个 数据 
的 操作 ， 如 数组 求 和 ， 求 数组 最 大 值 、 最 小 值 等 。 而 本 章 将 以 规约 求 和 为 例 ， 在 
AMD 基于 GCN 架构 的 GPU 上 对 并 行规 约 算法 进行 步骤 化 的 优化 ， 从 而 提升 并 行 
规约 算法 的 性 能 。 

传统 的 串 行 规约 算法 ， 以 C 语言 一 维 数组 求 和 为 例 ， 规 约 求 和 算法 通过 对 数 
组 数据 进行 压缩 合并 ， 直 至 只 剩 一 个 值 ， 该 值 即 为 规约 结果 : 数组 元 素 之 和 。 除 了 
规约 求 和 ， 规 约 算 法 通过 简单 修改 也 可 应 用 于 最 大 值 、 最 小 值 、 平 均 数 等 场景 。 

Serial Reduce 算法 中 通过 简单 的 一 个 for 循环 对 每 一 个 元 素 进行 迭代 累加 ， 其 
实现 逻辑 和 编码 难度 都 十 分 直观 人 简单， 只 需要 一 个 临时 变量 sum 存储 每 一 次 迭代 
的 累加 结果 ， 当 人 迭代 完成 时 ， 临 时 变量 sum 的 值 即 为 数组 元 素 的 总 和 。 但 因为 每 
一 次 循环 均 需 要 利用 上 一 次 循环 的 结果 ， 因 此 并 不 能 直接 移植 至 GPU。 不 进行 编 
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译 优化 的 条 件 下 ， 对 于 2 闪 的 数据 规模 ， 串 行规 约 算法 实现 的 运行 时 间 为 43687hs。 
5.4.2 ”并行 性 分 析 


从 串 行 规约 求 和 算法 Serial Reduce 可 以 看 出 ， 每 一 次 的 累加 需要 使 用 上 一 次 累 
加 的 中 间 结 果 ， 以 得 出 下 一 个 循环 所 需要 的 中 间 结 果 ， 即 每 一 次 的 求 和 运算 对 上 一 
次 求 和 结果 存在 依赖 。 因 此 ， 规 约 算法 并 不 具备 并 行 和 矩阵 转 置 算 法 的 高 度 并 行 性 。 
将 规约 算法 移植 至 GCPU 上 上， 首先， 要 解决 迭代 间 加 法 计算 操作 的 依赖 性 ， 以 更 大 
程度 地 挖掘 算法 的 并 行 性 。 本 章 采 用 二 分 规约 思想 ， 即 一 个 线程 处 理 两 个 元 素 ， 如 
Al 5-15 和 图 5-16 所 示 ， 每 一 层 规约 的 完成 ， 规 模 减 半 ， 最 后 再 对 合理 的 、 小 规模 
的 局 部 和 进行 原子 累加 操作 ， 求 出 最 终 总 和 。 此 外 也 鼓励 尝试 采用 四 分 法 、 八 分 法 
等 进行 规约 。 
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图 5-15 Naive Reduce 规约 过 程 


1. 并 行规 约 算法 简 述 

根据 以 上 分 析 ，GPU 端 并 行规 约 算法 的 过 程 可 以 简要 描述 为 三 个 步骤 : 

O 数据 传输 : work - group 把 global memory 的 sre 数组 中 对 应 数据 复制 至 local 
memory 的 [Sum 数组 。 

O work - group 内 规约 : work - group 对 local memory AY [Sum 数组 进行 内 部 规 
约 ， 求 出 局 部 和 。 

O work - group 间 规 约 : 对 每 一 个 work - group 所 得 局 部 和 通过 原子 操作 进行 累 
加 ， 得 到 最 终 总 和 (原子 操作 atom_add () EX OpenCL 1.2 的 扩展 操作 ， 要 包 
S: #pragma OPENCL EXTENSION cl_khr_global_int32_base_atomics : enable) 。 

由 于 规约 操作 间 存 在 计算 依赖 ， 对 global memory 和 local memory 的 操作 又 分 别 
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Z| 5-16 Divergence - Free Kernel 规约 过 程 





ea va bank conflict 等 影响 性 能 因素 以 及 wavefront 的 编程 控制 也 是 影响 性 
能 的 重要 因素 ， 因 此 衍生 出 多 个 版 本 的 并 行规 约 算 法 。 

本 章 将 从 基本 的 并 行规 约 实现 开始 ， 针 对 以 上 性 能 因素 对 算法 的 三 个 步骤 的 并 
行 性 进行 挖掘 ， 以 逐步 地 提升 算法 性 能 ， 并 尝试 阐述 采用 每 一 步 优化 方法 的 依据 及 
思路 ， 以 寻求 通用 的 GPU 并 行规 约 算法 的 优化 方法 。 

2. 并 行规 约 算 法 基本 实现 

依据 上 一 部 分 的 分 析 ， 采 用 二 分 法 的 Naive Kernel 为 并 行规 约 求 和 算法 的 基本 
思路 : 申请 与 数据 规模 等 大 的 线程 数目 ， 以 使 线程 和 数据 一 一 对 应 ， 再 根据 上 一 部 
分 的 算法 三 个 步骤 作为 框架 进行 编码 。 

O 数据 传输 : work - group 把 global memory 中 sre 数组 对 应 的 数据 加 载 至 local 
memory 的 ISum 数组 ， 当 且 仅 当 work - group 内 的 线程 均 完 成 读 和 操作， 对 [Sum 数 
组 的 局 部 规约 才能 开展 。 因 此 ， 需 要 显 式 调用 本 地 同步 函数 ， 以 确保 读 入 操作 完 
成 ， 即 调用 barrier () 函数 ， 参 数 为 CLK_LOCAL_MEM_FENCE, 

O work - group 内 规约 : 即 局 部 规约 操作 ， 其 规约 过 程 如 图 5-15 使 用 二 分 法 求 
和 ， 多 次 循环 得 出 local memory 中 的 局 部 和 。 每 一 次 的 for 循环 ， 需 要 进行 条 件 判 
Wr, WZ EE ID 以 屏蔽 部 分 不 需要 进行 规约 操作 的 线程 ， 此 种 逻辑 判断 中 ， 造 成 
相 邻 的 线程 无 法 执行 相同 工作 ， 从 而 导致 了 活跃 wavefront 数目 增加 的 同时 ， 也 导 
致 了 wavefront 内 线程 的 分 支 执行 ， 从 而 影响 了 程序 的 并 行 化 ， 降 低 了 算法 性 能 。 

口 Work - Groups 间 规 约 : 通过 原子 累加 操作 ， 把 每 一 个 work - group 规约 所 得 
的 局 部 和 累加 至 最 终结 果 位 置 dest [0]， 当 所 有 work - group 执行 完毕 ，dest [0] 
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存储 最 终 总 和 。 
其 规约 过 程 如 图 5-15 所 示 。 


5.4.3 规约 算法 优化 


本 小 节 将 会 以 并 行规 约 求 和 算法 为 例 ， 以 Naive Reduce 为 起 点 ， 针 对 5. 4.2 小 
节 的 三 个 基本 步骤 ,逐步 地 探求 并 行规 约 算 法 的 优化 策略 ， 以 最 大 化 地 提升 算法 
性 能 。 

1. work - group 内 规约 优化 

(1) bank conflict 

在 AMD GCN 架构 的 GPU 上 ， 每 一 个 CU 均 包含 一 个 64KB 的 本 地 数据 共享 
(Local Data Share, LDS), LDS 包含 32 个 bank， 每 一 个 bank 为 4B 宽 ，256B 高 ， 
bank 之 间 相 邻 。 也 可 以 简单 地 把 LDS 理解 成 一 个 256 x 32 的 二 维 数组 ， 数 组 元 素 
大 小 为 4B。 在 同一 个 时 钟 周 期 内 ， 每 个 bank 都 能 够 独立 地 工作 . 如 果 出 现 有 多 个 
线程 同时 访问 处 于 同一 个 bank 内 的 不 同 地 址 时 ， 相 关 操 作 将 无 法 并 行 地 执行 ， 将 
会 串 行 化 ， 这 种 情况 叫 作 bank conflict, bank conflict 的 产生 导致 了 线程 访问 LDS 的 
串 行 化 ， 严 重 影响 着 local memory 的 访 存 效率 。 

根据 图 5-15 的 第 一 层 规约 可 以 看 出 ， 由 于 相 邻 的 两 个 线程 一 个 进行 规约 操作 ， 
而 另 一 个 则 被 屏蔽 处 于 空转 状态 ， 连 续 的 线程 并 没有 访问 连续 的 bank， 如 线程 0 
与 线程 16 将 同时 访问 Bank0， 线 程 1 与 线程 17 访问 bankl 等 ， 此 为 2 - way -bank - 
conflict。 通 过 优化 ， 如 图 5- 16 所 示 ， 通 过 连续 的 线程 访问 连续 的 数据 ， 连 续 的 32 
个 线程 将 会 访问 连续 的 bank， 有 效 地 避免 bank conflict， 进 一 步 提 升 算法 性 能 。 

(2) wavefront 优化 

wavefront 是 GPU 调度 和 执行 的 基本 单元 ，64 个 线程 组 成 一 个 wavefront, Fl 
5-16 规 约 过 程 与 图 5-15 规约 过 程 进 行 对 比 ， 当 wavefront 内 部 所 有 线程 均 执 行 相同 
操作 以 及 减少 活跃 wavefront 数目 ， 将 对 性 能 带 来 提升 。 

1) 减少 wavefront 内 条 件 分 支 。 由 图 5-15 Naive Reduce 可 知 ， 执 行规 约 的 
线程 ID 并 不 连续 ， 意 味 着 同一 个 wavefront 的 线程 存在 着 分 支 ， 一 部 分 线程 负责 规 
约 操作 ， 一 部 分 线程 则 空转 。 每 一 次 的 for 循环 内 ， 都 进行 了 条 件 判断 ， 通 过 线程 
ID 以 屏蔽 部 分 不 需要 进行 规约 操作 的 线程 ， 此 种 逻辑 判断 中 ， 令 相 邻 的 线程 无 法 
执行 相同 工作 ， 导 致 了 wavefront 内 部 线程 的 分 支 执行 ， 从 而 降低 了 程序 的 并 行 化 ， 
降低 了 算法 性 能 。 

2) 减少 活跃 wavefront 数目 。 由 图 $-15 及 Naive Reduce 可 知 wavefront 内 只 
一 半 线 程 处 于 工作 状态 ， 另 一 半 线 程 处 于 空转 状态 。 当 一 个 wavefront 内 所 有 线程 
都 参与 至 规约 工作 ， 如 图 5-16 所 示 ， 一 个 wavefront 所 能 处 理 的 数据 量 将 会 翻 倍 ， 
进而 有 效 地 减少 活跃 wavefront 数目 ， 优 化 后 版 本 活跃 wavefront 2A AN Naive Re- 
duce 的 一 半 。 
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(3) Divergence - Free Kernel 算法 

综合 以 上 分 析 ， 提 出 Divergence - Free Kernel， 针 对 Naive Reduce 所 存在 的 不 
足 进 行 改 进 ， 通 过 跨 步 寻 址 取 数 操作 ， 避 免 了 wavefront 内 部 线程 的 条 件 分 支 。 另 
一 方面 ， 由 于 一 个 wavefront 所 能 处 理 的 数据 增加 ， 以 致 所 需 活跃 wavefront 数目 减 
少 。 因 此 ，Divergence - Free Kernel 可 以 提高 并 行规 约 算法 的 性 能 。 

Divergence - Free Kernel 算法 与 Naive Reduce 的 不 同 之 处 在 于 步骤 2 的 work - 
group 内 规约 。 

Divergence - Free Kernel 的 规约 过 程 如 图 5- 16 所 示 。 

根据 图 5-16 可 以 清晰 看 出 ， 从 第 一 次 循环 开始 ， 每 一 个 线程 以 work - group 所 
申请 的 local memory Size ( 即 代 码 中 的 lSize) 的 一 半 ， 即 lSize/2 大 小 作为 寻 址 跨 
度 ， 读 出 两 个 数据 进行 累加 (二 分 法 )。 规 约 过 程 中 所 使 用 的 线程 ID 是 连续 的 ， 
所 访问 的 数据 也 是 连续 的 ， 即 对 bank 进行 连续 访问 ,解决 了 local memory 的 bank 
conflict。 此 外 ， 减少 了 wavefront 内 部 线程 的 条 件 分 支 ， 使 wavefront 内 部 所 有 线程 
都 执行 相同 操作 。 与 此 同时 ， 因 为 wavefront 内 部 线程 的 充分 利用 ， 因 而 减少 了 活 
BR wavefront 的 数目 。 其 活跃 wavefront 数目 约 为 Naive Reduce 算法 的 一 半 。 因 此 性 
能 得 到 较 大 的 提升 。 从 图 5-15 的 Naive 版 本 和 work - group 内 规约 优化 ， 可 以 看 
出 ， 相 对 于 Naive Reduce ， 通 过 解决 bank conflict 和 优化 wavefront, work - group 内 
规约 优化 算法 Divergence - Free Kernel 性 能 得 到 大 幅 的 提升 。 

2. 循环 展开 

(1) Last - Wavefront - Unroll Kernel 

本 算法 针对 最 后 一 个 wavefront - size 的 循环 进行 展开 。 对 于 Divergence - Free 
Kernel 而 言 ， 首 先 从 硬件 资源 组 织 上 分 析 ， 每 一 个 wavefront 由 64 个 线程 组 成 ， 
wavefront 是 GPU 调度 与 执行 的 基本 单位 ，wavefront 内 所 有 线程 均 执 行 相同 的 指令 ， 
4 + cycle 执行 完 一 个 wavefront， 由 此 可 知 ， 对 于 Divergence - Free Kernel 中 的 for 
循环 ， 每 一 次 迭代 需要 调用 barrier ( ) 进行 本 地 同步 ， 再 进行 下 一 层 规约 。 

当 运 行 线程 数 小 于 或 等 于 64 时， 即 运 行 线程 都 属于 同一 个 wavefront 时 ， 可 以 省 
去 显 式 的 本 地 同步 操作 。 因 为 wavefront 是 CPU 调度 与 执行 的 基本 单位 ， 当 work - 
group 内 活跃 线程 数 少 于 或 等 于 64 时 ， 即 可 免 去 本 地 同步 操作 ， 以 提升 算法 
性 能 。 

因此 ， 本 小 节 的 首 个 展开 循环 Kernel 为 Last - Wavefront - Unroll Kernel, Last - 
Wavefront - Unroll Kernel 在 Divergence - Free Kernel 的 基础 上 修改 了 步骤 2 中 work - 
group 内 规约 算法 的 循环 结束 条 件 ， 当 所 需 线 程 数 小 于 或 等 于 一 个 wavefront 所 含 线 
程 数目 4 时 结束 循环 ， 并 进行 显 式 的 规约 操作 ， 从 而 减少 本 地 同步 函数 的 调用 ， 实 
现 更 高 的 性 能 。 

当 for 循环 启用 线程 数 小 于 或 等 于 64 时 ， 终 止 循环 ， 然 后 对 剩余 线程 进行 显 式 
的 规约 操作 。 因 此 ,让 语 句 内 的 显 式 规约 操作 过 程 可 以 省 去 本 地 同步 函数 。 正 是 由 
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于 所 展开 的 部 分 循环 不 需要 再 使 用 barrier 函数 进行 显 式 本 地 同步 ， 因 此 算法 性 能 


得 到 提高 . 

此 外 ， 值 得 注意 的 是 在 显 式 规约 过 程 中 ， 需 要 使 用 volatile 指示 符 ， 以 强制 地 
使 规约 操作 是 对 内 存 直接 进行 读 写 ， 和 否则 ， 规 约 过 程 会 将 运算 结果 和 暂 存 于 寄存 器 ， 
最 终 导致 结果 的 不 正确 。 

(2) Completely - Unroll Kernel 

考虑 到 在 GCN 架构 的 GPU F, OpenCL 程序 限制 一 个 work - group 在 单一 维度 
上 最 多 开启 256 个 线程 。 因 此 ， 在 Last - Wavefront - Unroll Kernel 的 基础 上 ， 提 出 
Completely - Unroll Kernel, Completely - Unroll Kernel 展开 所 有 for 循环 ， 涉及 一 个 
work - group 内 部 多 个 活跃 wavefront 间 的 同步 问题 ， 因 此 仍 需要 显 式 的 本 地 同步 。 

3. 线程 内 规约 优化 

分 析 上 文 的 并 行规 约 算法 ， 在 步骤 1 的 数据 传输 算法 中 ， 把 global memory 数 
据 通过 线程 一 一 对 应 地 读 入 local memory 之 后 ， 从 第 一 步 规约 开始 ， 有 一 半 的 线程 
是 处 于 空闲 状态 的 ， 因 此 造成 了 极 大 的 资源 浪费 。 

为 了 更 充分 地 利用 资源 ， 让 所 有 线程 均 参 与 规约 操作 ， 对 global memory 数据 
加 载 至 local memory 的 过 程 进 行 优 化 处 理 ， 此 过 程 可 以 把 每 一 个 线程 简单 的 读 写 操 
作 改 为 规约 操作 ， 如 把 原本 每 次 只 读 一 个 数据 变 成 读 两 个 数据 再 累加 ， 把 累加 结 
ÆA local memory 相应 位 置 。 如 此 一 来 ， 在 步骤 2 的 work - group 内 规约 算法 之 前 ， 
所 有 的 线程 均 进行 了 一 次 规约 操作 ， 此 处 把 该 规约 过 程 定义 为 线程 内 规约 。 

线程 内 规约 算法 有 两 种 不 同方 式 的 实现 ， 其 实现 的 区 别 主要 在 于 每 个 线程 跨 步 
寻 址 的 步 长 。 依 据 线程 内 规约 算法 中 步 长 的 不 同 ， 下 面 将 分 别 列 出 Stride - Global - 
Size Kernel 和 Stride ~ Local — Size Kernel, 

O Stride - Global - Size Kernel; 每 一 个 线程 以 全 局 线程 总 数 ， 即 global - size 大 
小 为 寻 址 跨度 ， 读 取 相 距 global - size 的 两 个 或 多 个 元 素 (取决 于 参数 times) ， 进 
行 累 加 ， 然 后 把 累加 结果 写 入 local memory 的 ISum 数组 ， 再 执行 work - group 内 规 
约 算法 。 

O Stride - Local - Size Kernel; 每 一 个 线程 以 work - group 内 线程 数 ， 即 local - 
size 大 小 为 跨度 ， 读 取 相 距 local - size 的 两 个 或 多 个 元 素 (取决 于 参数 times, FX 
将 在 两 种 情况 下 对 times 进行 使 用 说 明 )， 进 行 累加 ， 然 后 把 累加 结果 写 入 local 
memory 的 [Sum 数组 ， 再 执行 work - group 内 规约 算法 。 

为 了 更 好 地 观察 对 线程 内 规约 算法 对 性 能 的 影响 ， 下 面 将 对 Stride - Global - 
Size Kernel 和 Stride - Local - Size Kernel 在 参数 times 进行 两 种 不 同 场 景 的 应 用 。 

(1) Stride - Global - Size Kernel 

Stride - Global - Size Kernel 只 需 在 Completely - Unroll Kernel 步骤 1 的 数据 传输 
算法 中 加 入 线程 内 规约 算法 。 

(2) Stride - Local - Size Kernel 
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同样 ，Stride - Local - Size Kernel 只 需 在 Completely - Unroll Kernel 步骤 1 的 数 
据 传输 算法 中 加 入 线程 内 规约 算法 ， 其 与 Stride - Global - Size Kernel 的 区 别 在 于 步 
TR 所 包含 的 线程 内 规约 算法 的 Stride 不 同 。 

(3) 控制 全 局 线程 数 

此 场景 将 设置 参数 times = 数据 总 量 /全 局 线程 数 。work - group 数目 为 NUM - Work 
- Group = 全 局 线程 数 / 局 部 线程 数 ， 由 于 局 部 线程 数 固定 为 256， 因 此 work - group 数量 
将 会 十 分 充足 ， 能 够 有 效 地 隐藏 访 存 延 迟 。 但 是 由 于 硬件 CU (computer unit) 数目 是 
固定 的 ， 大 量 的 work - group 可 能 无 法 均衡 地 分 配 至 所 有 的 CU, 

(4) 控制 work - group 数目 

此 场景 将 设置 参数 times = 数据 总 量 / (局 部 线程 数 x NUM - work - group) o 
work - group 的 数目 将 会 以 硬件 CU 数目 为 基准 ， 乘 以 倍数 参数 ( 即 CU 的 倍数 ) ， 
观察 在 均衡 使 用 CU 情况 下 ,适当 地 调整 倍数 以 观察 适量 的 work - group 数目 均衡 
使 用 CU 情况 下 对 性 能 的 影响 。 

4. 向 量化 

从 上 述 内 容 可 知 ，Stride - Global - Size Kernel 和 Stride - Local - Size Kernel 两 
个 算法 的 寻 址 跨度 可 以 长 达 global size 或 者 local size 的 距离 ， 而 本 部 分 内 容 实现 的 
Vector - Size Kernel 算法 中 ， 向 量化 操作 为 相 邻 数据 的 规约 操作 ， 即 跨度 为 1。 
JK, Vector - Size Kernel 算法 与 Stride - Global - Size Kernel 和 Stride - Local - Size 
Kernel 的 区 别 在 于 并 行规 约 步骤 1 所 包含 的 线程 内 规约 算法 的 不 同 。 由 于 一 些 GPU 
硬件 上 对 向 量化 操作 进行 了 优化 ， 为 了 观测 向 量化 编程 对 并 行规 约 算法 的 影响 ， 独 
立 于 上 述 内 容 ， 以 更 好 地 独立 分 析 GCN 架构 GPU 对 向 量化 操作 的 执行 情况 。 

由 于 OpenCL 平台 向 量 类 型 的 限制 ，Vector - Size Kernel 算法 的 times 只 能 取 值 
为 2、4、8、16。 因 此 有 四 种 不 同 的 实现 ， 本 节 给 出 其 中 一 种 ， 数 据 类 型 为 uint4。 

在 Vector - Size Kernel 算法 中 ， 每 一 个 线程 将 读 取 一 个 向 量 ， 即 将 会 读 取 相 邻 
的 多 个 数据 ， 寻 址 跨度 为 1 个 数据 单位 。 


5.4.4 性 能 分 析 


本 节 实 验 运行 的 GPU 平台 为 AMD FirePro™ W8000， 主 频 0.88GHz， 有 1792 
个 core, 28 个 CU， 带宽 176GB/s. 


和 对 比 ， 若 优化 策略 存在 多 种 实现 思路 ， 将 性 能 最 优 的 为 准则 参与 对 比 ， 性 和 
对 比如 图 5-17 所 示 。 

图 5-17 为 并 行规 约 求 和 算法 不 同 版 本 之 间 的 算法 性 能 对 比 。 并 行规 约 求 和 算 
法 经 过 多 种 优化 策略 的 步骤 性 优化 ， 其 执行 时 间 从 最 初 的 Naive Reduce 的 
1056. 199hs 降低 至 417hs 左右 ， 性 能 提升 了 约 60. 52% 。 

根据 图 5-17 性 能 数据 可 知 ，work - group 内 规约 优化 算法 相 较 于 Naive 版 本 ， 
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优化 版 本 
5-17 并 行规 约 优化 算法 性 能 综合 对 比 

work - group 内 规约 优化 算法 通过 解决 local memory 的 bank conflict 和 wavefront 内 部 
线程 的 条 件 分 支 ， 有 效 地 提升 了 local memory 的 访问 效率 及 wavefront 内 部 线程 操作 
的 并 行 性 ， 因 此 性 能 上 优 于 Naive 版 本 。work - group 内 规约 优化 算法 性 能 较 Naive 
Reduce 提升 了 17.58% 。 

循环 展开 优化 算法 是 在 work - group 内 规约 优化 版 本 的 基础 上 结合 硬件 调度 和 
执行 单元 wavefront 的 特点 进行 优化 的 算法 版 本 ， 循 环 展开 优化 算法 对 work - group 
内 规约 过 程 进行 循环 展开 ， 以 减少 规约 过 程 的 本 地 同步 操作 ， 进 而 减少 时 间 开 销 ， 
根据 图 5-17 可 以 得 出 ,循环 展开 优化 算法 相对 于 work - group 内 规约 优化 版 本 在 性 
能 上 得 到 提升 。 

线程 内 规约 优化 算法 基于 循环 展开 优化 算法 ， 在 对 work - group 内 规约 完成 优 
化 的 基础 上 ， 对 线程 内 的 规约 过 程 进行 优化 。 循 环 展开 优化 算法 在 第 一 次 规约 时 就 
有 一 半 的 线程 处 于 空转 ， 只 有 一 半 的 线程 进行 规约 操作 ， 大 大 浪费 线程 资源 。 线 程 
内 规约 优化 算法 在 把 global memory 的 src 数组 加 载 进 local memory 的 ISum 数组 过 程 
中 进行 第 一 次 规约 操作 ， 所 有 线程 均 参 与 规约 操作 ， 每 个 线程 对 两 个 或 多 个 的 数据 
进行 规约 ， 因 此 更 充分 地 利用 了 线程 资源 。 此 外 ， 当 每 个 线程 处 理 times 个 数据 
时 ， 所 需 的 全 局 线程 数 减少 至 数据 总 量 DATA_NUM 的 1/times， 从 而 减少 work - 
group 数目 ， 最 终 减 少 了 局 部 和 累加 的 原子 操作 。 因 此 ， 其 性 能 相对 于 循环 展开 优 
化 算法 得 到 有 效 的 提升 。 

向 量化 优化 算法 同样 是 以 循环 展开 优化 算法 为 基础 进行 的 线程 内 规约 优化 ， 然 
而 向 量化 优化 算法 与 线程 内 规约 优化 算法 在 性 能 上 相差 无 几 。 其 原因 在 于 本 次 实验 
GPU 平台 为 AMD FirePro™ W8000， 基 于 GCN 架构 的 AMD FirePro W8000 弃 用 传 
统 的 SIMD 流 处 理 需 阵列 ， 取 而 代 之 的 是 GCN 阵列 ， 不 再 对 向 量 操作 进行 加 速 ， 
其 对 向 量化 的 操作 将 会 拆 分 成 多 个 标量 操作 进行 ， 因 此 ， 编 程 中 的 向 量化 操作 对 性 

能 的 提升 效果 十 分 有 限 。 在 GCN 架构 的 GPU 上 ， 向 量化 优化 算法 与 线程 内 规约 优 

化 算法 其 优化 本 质 是 相 同 的 ， 只 是 规约 数据 之 间 步 长 不 同 ， 因 此 两 者 性 能 十 分 
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相近 。 

将 并 行规 约 算法 与 串 行 规约 算法 在 不 同 的 数据 规模 下 进行 对 比 ， 以 加 速 比 
( 串 行规 约 时间 / 并 行规 约 时 间 ) 作为 评价 基准 。 

本 小 节 的 实验 使 用 g + + 编译 器 在 编译 过 程 对 串 行规 约 算 法 Serial Reduce 进行 
了 优化 ， 采 用 了 “ - 03” 最 高 优化 等 级 。 在 数据 规模 为 4096 x 4096 情况 下 ，Serial 
Reduce 优化 前 规约 时 间 为 43687ks， 对 比 5.4.1 小 节 所 示 ， 在 采用 “ - 03” 选 项 
后 ， 其 规约 时 间 下 降 至 8077us。 

根据 图 5- 18 可 知 ， 当 数据 规模 较 少时 ， 如 64 x64， 串 行规 约 算法 优 于 并 行规 
约 算法 ， 因 为 这 种 情况 下 并 行规 约 算法 在 数据 传输 时 间 高 于 计算 时 间 ， 甚 至 不 足以 
隐藏 存储 操作 的 延迟 ， 因 此 性 能 较 差 。 然 而 随 着 数据 规模 的 增 大 ， 并 行规 约 算 法 的 
优势 开始 显现 。 在 1024 x 1024 数据 规模 下 ， 加 速 比 逼近 20。 
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图 5-18 加 速 比 〈 串 行规 约 / 并 行规 约 ) 
循环 展开 算法 性 能 如 图 5-19 所 示 ，Completely - Unroll Kernel 相 较 于 Last - 
Wavefront - Unroll Kernel 的 性 能 上 并 没有 提升 ， 甚 至 略 低 于 Last - Wavefront - Unroll 
Kernel。 分 析 可 知 ， 在 NVIDIA 的 GPU 上 ， 因 为 每 一 个 block 最 大 可 开启 线程 数目 
为 1024 个 (AMD GCN 架构 的 GPU 为 256 个 ) ， 因 此 可 以 对 for 进行 更 多 次 的 展开 ， 
展开 过 程 在 编译 阶段 已 经 确定 了 ， 因 此 Completely - Unroll Kernel 会 有 比 在 GCN 架 
构 的 GPU 上 有 更 好 的 优化 效果 。 
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根据 5.4.3 小 节 的 优化 分 析 ， 将 对 线程 内 规约 优化 算法 的 两 个 版 本 Stride - 
Global - Size Kernel 与 Stride - Local - Size Kernel 在 两 种 场景 下 进行 性 能 的 比较 ， 其 
实验 结果 如 图 5-20 和 图 5-21 所 示 。 
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图 5-20 场景 1: 控制 全 局 线程 数 














时 间 /hs 


CU 倍数 
口 Stride-Global-Size Kernel E Stride-Local-Size Kernel 
图 5-21 场景 2: 控制 work - group 数目 

两 个 场景 的 实验 结果 同时 表明 : Stride - Global - Size Kernel 和 Stride - Local - 
Size Kernel 两 个 线程 内 规约 算法 通过 调整 倍数 参数 ， 其 最 好 性 能 逼近 甚至 超过 了 
420ks， 相 较 于 图 5-19 的 循环 展开 算法 ， 性 能 得 到 有 效 的 提升 。 

根据 图 5-20 可 知 ， 场 景 1 的 work - group 数目 = 全 局 线程 数 /局 部 线程 数 ， 全 
局 线程 数 = 数据 总 数 /倍数 (图 5-20 中 的 2、4、8 等 ) ， 其 中 局 部 线程 数 固定 为 
256。 因 此 ，work - group 数目 随 全 局 线程 数 波动 ， 数 量 十 分 庞大 ， 足 以 隐藏 访问 延 
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迟 。 因 此 场景 1 中 的 两 个 优化 算法 性 能 均 能 保持 在 480hs 以 下 。 

根据 图 5-21 PJA, 场景 2 的 work - group 数目 = CU x 倍数， 其 中 AMD Fire- 
Pro™ W8000 的 CU 数目 为 28。 可 知 ， 当 CU 倍数 参数 设置 为 2，work - group 数目 
为 28 x2 =56 时 ， 两 个 优化 算法 性 能 较 差 ， 但 随 着 work - group 数目 的 增加 ， 当 
work - group 数目 足以 隐藏 访 存 延迟 时 ， 其 性 能 将 会 得 到 提高 ， 如 图 5-21 所 示 。 

然而 两 个 优化 算法 在 场景 2 与 场景 1 相 比 较 ， 其 work - group 数目 更 均衡 地 分 
配 至 每 一 个 CU， 局 部 和 累加 的 原子 操作 大 量 减少 ,但 性 能 却 与 场景 1 相仿 。 其 原 
因 可 能 是 由 于 work - group 数目 较 少 ， 则 在 线程 内 规约 优化 时 单个 元 素 所 处 理 的 元 
素数 目 增 多 ， 从 而 抵消 了 原子 操作 减少 带 来 的 性 能 提升 。 而 由 于 场景 1 的 work - 
group 数目 众多 ， 能 有 效 地 隐藏 原子 操作 的 访 存 延 迟 ， 因 此 work - group 能 否 均衡 地 
分 配 至 每 一 个 CU 上 对 性 能 的 影响 微乎其微 。 

由 图 5-22 可 以 看 出 ， 向 量化 后 的 性 能 大 约 在 440hs 以 内 ， 最 优 为 uint4 版 本 ， 
时 间 为 417. 674ns， 十 分 相近 ， 以 uint4 类 型 向 量 效果 最 优 。 根 据 前 面 的 分 析 可 知 ， 
GCN 架构 的 GPU 对 向 量化 操作 的 优化 十 分 有 限 ， 其 对 向 量化 的 操作 将 会 拆 分 成 多 
个 标量 操作 进行 。 因 此 向 量化 优化 算法 本 质 上 是 步 长 为 1 的 线程 内 规约 算法 。 
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5.5 resize 算法 


5.5.1 算法 简介 及 分 析 


ENR resize 算法 在 图 像 处 理 领域 有 着 十 分 广泛 的 应 用 ， 是 图 像 处 理 的 基本 算法 之 
一 。 图 像 resize 算法 的 作用 是 依据 不 同 的 插值 方式 对 图 像 的 大 小 进行 调整 。 由 于 算法 
需要 在 效率 和 图 像 质量 之 间作 权衡 。 当 对 图 像 进行 放大 时 ， 不 可 能 同时 获得 更 多 的 细 
节 ， 因 此 图 像 的 质量 将 不 可 避免 地 下 降 。 相 反 ， 缩 小 一 个 图 像 将 会 增强 它 的 平滑 度 和 
清晰 度 。 除 了 为 了 适应 显示 区 域 而 缩小 图 片 外 ， 图 像 缩小 技术 更 多 的 是 被 用 来 产生 预 
览 图 片 。 图 像 放大 技术 一 般 被 用 来 令 一 个 较 小 的 图 像 填充 一 个 大 的 屏幕 。 
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针对 用 户 的 需求 ， 产 生 了 不 同 的 折 中 方案 ， 于 是 resize 算法 有 多 种 插值 方式 。 
如 在 OpenCV3. 0. 0 中 ，ev:: resize 图 数 有 五 种 搬 值 算法 : 最 近邻 、 双 线性 、 双 三 
次 、 基 于 像素 区 域 关 系 、 兰 索 斯 插值 。 由 于 篇 幅 限 制 ， 本 章 的 resize 算法 将 以 最 近 
邻 插值 和 双 线 性 插值 两 种 插值 方式 的 并 行 化 版 本 进行 讨论 。 

1. 最 近邻 插值 

最 近邻 插值 法 : 也 称 作 零 阶 插值 ， 就 是 令 变 换 后 像素 的 灰 度 值 等 于 距 它 最 近 的 
输入 像素 的 灰 度 值 。 最 近邻 插值 法 造成 的 空间 偏 移 误差 为 像素 单位 ， 计 算 简 单 。 但 
当 图 像 中 的 像素 灰 度 级 有 细微 变化 时 ， 该 方法 会 在 图 像 中 产生 人 工 的 痕迹 。 最 近邻 
插值 公式 (5-1) 如 下 : 

es a 

现成 的 resize 算法 可 参考 OpenCV3. 0.0 库 ， 本 章 实现 的 CPU 端 串 行 resize 算法 
在 源 图 像 为 512 x512 规模 ， 目 标 图 像 为 1024 x 1024 规模 ， 深 度 为 5， 在 通道 1 和 
通道 3 的 运行 时 间 分 别 为 2 O55ms 和 5. 568ms。 

2. 双 线 性 插值 

双 线 性 插值 是 有 两 个 变量 的 插值 函数 的 线性 插值 扩展 ， 其 核心 思想 是 在 两 个 方 
向 分 别 进行 一 次 线性 插值 。 在 图 像 的 双 线 性 插值 放大 算法 中 ,目标 图 像 中 新 创造 的 
像素 值 ， 是 由 源 图 像 位 置 在 它 附 近 的 2 x2 区 域 4 个 邻近 像素 的 值 通过 加 权 平 均 计 
算得 出 的 。 双 线性 内 插值 算法 放大 后 的 图 像 质量 较 高 ， 不 会 出 现 像 素 值 不 连续 的 情 
况 。 当 对 相 邻 四 个 像素 点 采用 双 线 性 插值 时 ， 所 得 表面 在 邻 域 处 是 吻合 的 ， 但 斜率 
不 吻合 。 且 双 线 性 灰 度 插值 的 平滑 作用 可 能 使 得 图 像 的 细节 产生 退化 ， 这 种 现象 在 
进行 图 像 放大 时 尤其 明显 。 双 线性 插值 公式 (5-2) 如 下 ， 其 中 目标 图 像 Dst 左边 
(X, Y) 对 应 于 源 图 像 (x, y)o 


Dst, , =(1-u) x Src, +(1-u) Xv X SIC, p41 HUX (1 -v)Sre 









































xy FU XVX SIC ot y4 


(5-2) 
在 与 最 近邻 插值 相同 条 件 下 ， 其 在 通道 1 和 通道 3 的 运行 时 间 分 别 为 4.81lms 
和 12. 229ms。 


5.5.2 并 行 性 分 析 

1. resize 算法 简 述 

从 5.5.1 小 节 分 析 可 知 ，resize 算法 在 不 同 的 需求 驱动 下 所 采用 的 插值 方式 并 
不 相同 ， 而 最 近邻 插值 方式 与 双 线 性 插值 方式 为 两 种 基本 的 插值 方式 ， 最 近邻 插值 
方式 依据 公式 (5.1) 进行 实现 ， 由 于 其 实现 较为 简单 ， 只 需要 直接 在 sre 中 进行 
取 数 计算 ， 然 后 再 往 结果 和 矩阵 进行 写 入 即 可 ， 相 关 的 访 存 过 程 和 计算 过 程 与 双 线 性 
插值 方式 并 不 存在 实质 性 差别 ， 为 了 节省 篇 幅 ， 把 焦点 更 好 地 集中 于 优化 方法 本 
身 ， 本 章 将 重点 对 双 线 性 插值 方式 进行 剖析 ， 而 对 于 简单 的 最 近 令 插值 方式 只 给 出 
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其 基本 的 并 行 实现 ， 读 者 可 依据 本 章 对 双 线 性 搬 值 方式 的 优化 方法 推广 至 最 近邻 
插值 。 

下 文 的 resize 算法 主要 基于 双 线 性 插值 方式 的 并 行 实现 。 

双 线 性 插值 法 的 基本 实现 可 概括 为 以 下 三 个 步骤 . 

口 目 标 图 像 像素 点 在 源 图 像 的 坐标 定位 。 

O 定位 坐标 周边 四 个 元 素 的 读 取 与 权重 分 配 ， 依 照 公式 (5.2) 计算 目标 图 像 
像素 值 。 

O 把 结果 值 写 和 人 目标 和 矩阵。 

虽然 双 线 性 插值 方式 之 间 不 存在 数据 依赖 ,但 对 数据 的 读 取 位 置 随 着 目标 图 像 
大 小 与 源 图 像 大 小 的 比例 变化 而 变化 ， 一 定 程 度 上 加 大 了 并 行程 序 通用 性 的 编程 难 
度 ， 由 于 一 个 线程 需要 读 取 两 行 的 四 个 像素 点 数据 进行 运算 ， 因 此 访 存 方式 并 不 规 
律 ， 不 恰当 的 访 存 可 能 会 增加 延迟 而 导致 性 能 的 下 降 。 下 面 将 给 出 最 近邻 插值 方式 
与 双 线 性 插值 方式 的 resize 算法 的 基本 实现 ， 并 主要 针对 双 线 性 插值 方式 对 resize 
算法 进行 优化 ， 通 过 增加 每 一 个 线程 所 处 理 像素 点 的 个 数 以 及 对 访 存 方式 的 优化 ， 
以 追求 更 高 的 性 能 。 

2. resize 算法 基本 实现 

基本 实现 的 resize 算法 线程 与 像素 点 对 应 关系 为 一 对 一 ， 如 图 5-23 所 示 ， 即 
一 个 线程 负责 一 个 像素 点 的 运算 ， 通 过 坐标 的 映射 关系 寻找 目标 图 像 像 素 点 对 应 于 
源 图 像 像素 点 的 映射 关系 ， 从 而 实现 图 像 的 缩放 。 




















K| 5-23 ”基本 实现 的 线程 -数据 对 应 关系 


此 版 本 的 源 图 像 为 512 x 512 规模 ， 目 标 图 像 为 1024 x 1024 规模 ， 深 度 为 5， 
在 通道 1 和 通道 3 的 运行 时 间 分 别 为 0.0594ms 和 0. 1579ms。 














同样 ， 下 面 给 出 双 线 性 插值 cy) (tly) 
方式 的 resize 算法 的 基本 实现 ， 一 y 
个 线程 负责 图 像 的 一 个 像素 点 的 9 
运算 ， 以 深度 为 5 为 例 ， 此 版 本 oe 


在 通道 1 和 通道 3 的 运行 时 间 为 
0. 1322ms 和 0. 0. 3892ms。 
如 图 5-24 所 示 ， 当 日 标 图 像 


l-v 














(X, Y) 坐标 在 源 图 像 的 计算 结 a) (tL ytl) 
坐标 为 (x +u, y to) 时 ， 即 图 图 5-24 ， 双 线性 插值 坐标 及 权重 关系 
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中 黑色 点 处 ,结合 图 解 和 公式 (5.2)， 可 以 得 出 ， 源 图 像 点 (x, y) 对 于 目标 图 
像 (X,Y) 的 方向 及 Y 方 向 的 贡献 权重 分 别 为 (1 -wu) 和 (1 -v)， 同 样 ，(x 
+1, y) 对 于 目标 图 像 (X, Y) 的 方向 及 了 方向 的 贡献 权重 分 别 为 w 和 (1 - 
v)， 而 (x, y+1) 的 贡献 权重 为 (1 -xz) 和 vw，(x+1, y +1) 的 贡献 权重 则 为 
(u,v) ， 通 过 对 四 点 的 像素 值 乘 以 其 两 个 方向 上 的 贡献 权重 ， 累 加 求 和 ， 得 出 目标 
像素 点 的 像素 值 ， 并 最 终 写 人 至 目标 图 像 。 


5.5.3 resize 算法 优化 


本 节 将 会 以 双 线 性 插值 方式 为 例 ， 以 Naive ”gpuResize _ Linear 基本 实现 为 起 
点 ， 通 过 线程 与 数据 一 对 多 的 对 应 关系 ， 频 繁 对 global memory 的 不 规则 访问 操作 
尽量 转化 为 对 share memory 的 访问 等 优化 策略 ， 以 最 大 限度 地 提升 算法 性 能 。 

1. 向 量化 

Naive ”gpuResize _ Linear 基本 实现 的 线程 数 与 图 像 像 素 点 为 一 一 对 应 关系 W 
图 5-23 所 示 ， 处 理 16 个 像素 点 ,需要 开启 16 个 线程 。 此 处 为 使 线程 的 利用 率 
提升 ,使 用 向 量化 操作 。 值 得 注意 的 是 ， 此 处 的 ”名 外 0 z 3 
向 量化 并 非 像素 点 的 向 量化 操作 ， 而 是 线程 - 像 
素 点 之 间 的 一 对 多 的 映射 关系 ， 以 本 小 节 为 例 ， yp 
此 处 的 向 量化 的 线程 -数据 映射 关系 为 1:4， 即 一 
个 线程 负责 4 个 像素 点 的 resize 操作 ， 如 图 5-25 
所 示 。 

由 图 5-25 可 得 ， 处 理 16 个 像素 点 只 需 调 度 4 
个 线程 ， 即 线程 0 era 0, 4, 8, 12, 
线程 1 处 理 像素 点 1、5、9、13， 如 此 类 推 。 由 于 resize 的 计算 操作 最 主要 为 公式 
(5.2) 的 运算 ， Ey 一 个 线程 处 理 一 个 像素 点 导致 线程 的 工作 量 过 低 、 利 
， vermin 适当 调整 线程 与 像素 点 的 映射 ， 线 程 可 以 在 其 

命 周期 内 负责 更 多 的 工作 ， 提 高 其 工作 效率 。 

此 版 本 的 resize 算法 ， 由 于 适当 地 为 线程 分 配 工作 量 ， 在 通道 1 和 通道 3 H, 
运行 时 间 分 别 为 0.0879ms 和 0. 3228ms, 

2. global memory 写 入 优化 

在 通道 数 为 3 时 ， 相 邻 线程 每 一 次 对 global memory 的 写 人 都 相隔 两 个 单元 数 
据 ， 设 通道 3 的 一 个 像素 点 包含 3 个 单元 数据 ， 因 此 相 邻 线程 的 每 一 次 写 入 ， 都 是 
不 连续 的 ， 线 程 访 存 方式 如 图 5-26 所 示 。 线 程 0 负责 0 号 像素 点 的 写 人 ， 而 每 个 
像素 点 包含 RGB 三 种 单位 数据 ， 因 此 需要 三 次 写 和 操作， 才能 完成 一 个 像素 的 写 
入 ， 因 为 连续 线程 并 非 写 入 连 续 的 存储 数据 ， 因 此 可 能 带 来 性 能 的 下 降 。 

依据 第 3 章 和 第 4 章 对 global memory 的 优化 经 验 ， 连 续 线程 访问 连续 单元 数 
据 的 访问 方式 将 会 带 来 较 大 的 性 能 提升 ， 因 此 ， 此 处 利用 share memory 作为 中 转 内 
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图 5-25 线程 -数据 的 1:4 映射 
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到 5-26 通道 数 为 3 时 线程 访问 数据 映射 关系 











存 空 间 ， 通 过 把 源 图 像 的 像素 点 数据 读 和 人 并 进行 resize 计算 ， 写 和 人 share memory 中 
转 空间 ， 然 后 通过 适当 的 线程 映射 关系 再 把 share memory 数据 拷贝 至 目标 图 像 的 
global memory 空间 , 从 而 实现 相 邻 线程 对 单元 数据 的 合并 访问 。 如 图 5-27 所 示 ， 
当 线 程 0、1、2 一 次 性 写 入 0 号 像素 点 的 3 个 单元 数据 时 ， 其 对 global memory 的 访 
问 方式 是 连续 的 ， 同 样 ， 经 过 三 次 相同 操作 ， 完 成 对 三 个 像素 点 的 合并 写 和 信 ， 此 过 
程 需要 运用 share memory 暂 存 resize 后 的 结果 数据 ， 而 从 暂 存 区 写 回 global memory 
为 图 5-27 的 合并 访问 操作 。 





图 5-27 通道 数 为 3 时 线程 合并 访问 数据 映射 关系 


此 版 本 在 通道 1 和 通道 3 的 运行 时 间 为 0. 1127ms 和 0. 3613ms。 

3. 数据 读 取 方式 优化 

由 图 5-24 和 公式 (5.2) 可 知 ， 当 需要 计算 目标 矩阵 像素 点 时 ， 需 要 取出 该 
像素 点 在 源 图 像 中 对 应 的 虚拟 坐标 周边 四 个 角 的 实际 像素 点 ， 在 取出 四 个 点 时 ， 需 
要 跨越 源 图 像 的 两 行进 行 取 数 ， 这 种 对 global memory 非 合 并 的 访问 方式 严重 影响 
了 算法 性 能 ， 当 通道 数 越 大 时 ， 则 带 来 的 性 能 下 降 越 严重 。 

除 此 以 外 ， 可 以 发 现 ，resize 算法 在 进行 放大 的 情况 下 ， 其 比例 意味 着 映射 至 
源 图 像 的 规模 越 小 ， 其 规模 与 源 图 像 /目标 图 像 的 X、 了 方向 的 比例 呈 线 性 关系 ， 
即 同等 规模 的 线程 块 block 内 ， 所 需要 的 源 图 像 数据 越 少 ， 即 存在 的 重复 存 取 情 况 
越 多 。 此 时 将 可 预测 大 小 的 源 图 像 块 拷贝 至 share memory 内 ， 进 行 resize 计算 时 ， 
block 内 线程 通过 适当 的 坐标 映射 ， 在 share memory 进行 数据 的 读 取 即 可 ， 此 过 程 
可 以 将 多 次 的 对 global memory 的 非 合 并 访问 操作 简化 为 一 次 global memory 的 合并 
访问 操作 和 多 次 的 share memory 的 访问 操作 ， 由 第 5. 3 节 并 行 矩 阵 转 置 算法 利用 
local memory 进行 对 global memory 合并 访问 分 析 可 知 ， 相 对 于 CUDA 的 share memo- 
ry 访问 ， 合 并 访问 与 否 对 性 能 的 影响 是 很 小 的 。 此 版 本 在 通道 1 和 通道 3 的 运行 时 
间 为 0. 115ms 和 0. 2199ms。 
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5.5.4 性 能 分 析 


本 小 节 实 验 运 行 的 GPU 为 Nvidia Tesla K20M， 处 理 时 钟 706MHz, CUDA 
core2496 个 ，warp 大 小 为 32。 

5.5.2 小 节 的 CPU 端的 最 近邻 插值 resize 算法 与 GPU 端的 最 近邻 插值 resize 算 
法 在 channel =1 和 channel =3 进行 性 能 对 比 ， 其 实验 结果 如 图 5-28 所 示 ，resize 算 
法 相对 于 串 行 resize 算法 在 channel =1 和 channel =3 加 速 比 分 别 为 34. 60 和 35. 26, 
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口 cpuResize_NN DO Naive_gpuResize_NN 
图 5-28 最 近邻 插值 resize 算法 对 比 
5.5.2 小 节 的 CPU 端的 双 线 性 搬 值 resize 算法 与 GPU 端的 双 线 性 resize 算法 在 


channel =1 和 channel =3 进行 性 能 对 比 ， 其 实验 结果 如 图 5-29 所 示 ，resize 算法 相 
XJT ÍT resize 算法 在 channel =1 和 channel =3 加 速 比 分 别 为 36.25 和 31. 35, 
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图 $-29 双 线 性 插值 resize 算法 对 比 
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通过 对 512 x 512 的 源 图 像 进行 各 种 resize 算法 ， 通 过 把 目标 图 像 放 大 为 
(512 xtimes) x (512 xtimes) 的 规模 ， 其 中 times=1, 2, 4, 

通道 1 的 情况 各 resize 算法 效果 如 图 5-30 (SLR) 所 示 。 可 以 看 出 在 不 同 的 
数据 规模 下 ，Vectorize gpuResize Linear 版 本 均 有 良好 的 效果 ， 而 CoalescedWrite _ 
gpuResize Linear 版 本 和 CoalescedRead gpuResize Linear 版 本 均 不 及 Vectorize _ 
gpuResize ”Linear。 下 面 给 出 分 析 的 原因 ， 对 于 CoalescedWrite _ gpuResize _ Linear 
而 言 ， 在 通道 1 下 单元 数据 只 有 1 个 ， 对 global memory 的 操作 为 合并 写 入 操作 ， 
但 对 Vectorize ”gpuResize Linear 而 言 同样 是 合并 写 入 ， 只 有 当 单 元 数据 大 于 1 时 ， 
连续 线程 访问 的 数据 才 产 生 跳 路 ， 因 此 在 通道 1 的 情况 下 ，CoalescedWrite _ gpuRe- 
size Linear 版 本 存在 多 余 的 对 share memory 的 操作 ， 此 性 能 下 降 。 对 于 Coa- 
lescedRead _ gpuResize _ Linear 而 言 ， 由 于 单元 数据 为 1， 因 此 对 share memory 的 利 
用 率 不 高 ， 虽 然 其 性 能 相 比 于 基础 实现 已 经 能 有 较 大 提升 ， 但 相对 于 Vectorize _ 
gpuResize _ Linear 版 本 而 言 ， 其 对 share memory 操作 所 带 来 的 延迟 可 能 更 严重 。 
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KI 5-30 通道 1 F resize 算法 性 能 对 比 


像素 点 的 通道 数 为 3 的 实验 结果 如 图 5-31 ( 见 彩 插 ) 所 示 ， 可 以 清晰 看 出 ， 
CoalescedRead _ gpuResize Linear 版 本 在 单元 数据 大 于 1 情况 下 ， 其 访 存 方式 的 优 
势 开 始 显现 ， 由 于 一 个 像素 存在 3 个 单元 数据 ， 其 他 版 本 实现 导致 相 邻 线程 需要 路 
HEX} global memory 进行 访问 ， 因 此 导致 性 能 下 降 ， 而 CoalescedRead _ gpuResize _ 
Linear 版 本 通过 把 多 次 对 global memory 的 非 合 并 访 存 转 化 为 对 share memory 的 访 
问 ， 而 在 share memory 上 是 不 要 求 对 访问 进行 合并 的 ， 从 而 降低 了 访 存 延 迟 ， 提 升 
了 算法 性 能 。 

依据 $. 3. 1 小 节 分 析 ，Vectorize  gpuResize Linear 通过 适当 地 改变 线程 - 数 
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图 5-31 通道 3 F resize 算法 性 能 对 比 





据 的 映射 关系 ， 增 加 线程 的 运算 量 ， 以 提升 开启 线程 的 利用 率 ， 由 图 5-30 及 图 
5-31 可 知 ， 适 当 的 向 量化 强度 能 够 提升 resize 算法 的 效率 ， 尤 其 在 通道 1 的 情况 
下 ， 因 为 通道 1 只 含有 1 个 单元 数据 ， 在 适当 数据 规模 下 ， 虽 然 存 在 对 global mem- 
ory 的 非 合 并 读 入 操作 ， 但 其 带 来 的 性 能 影响 可 能 与 CoalescedWrite _ gpuResize _ 
Linear 版 本 中 对 增加 的 share memory 的 操作 产生 抵消 作用 ， 此 外 ， 对 global memory 
的 写 和 操作， 由 于 不 需要 跨 址 操作 ， 符 合 合并 访问 ， 因 此 性 能 得 到 提升 。 

依据 5.5.3 小 节 分 析 ，CoalescedWrite — gpuResize _ Linear 版 本 通过 引入 share 
memory 以 消除 算法 最 后 对 global memory 的 非 合 并 写 入 方式 , 但 性 能 却 没 有 得 到 预 
想 中 的 提升 。 如 图 5-30 及 图 5-31 所 示 。 部 分 原因 如 前 面 分 析 所 示 ， 即 使 在 通道 3 
的 情况 下 ， 相 邻 线程 对 global memory 的 写 入 需要 跨越 3 个 单元 数据 进行 访问 ,但 
因为 三 个 操作 代码 是 连续 写 人 ， 极 有 可 能 编译 器 进行 了 合并 写 和 优化， 这 是 不 可 预 
知 的 。 男 一 个 原因 在 于 由 于 跨 址 长 度 只 为 3 个 单元 数据 宽度 ， 而 不 是 更 长 ， 而 算法 
版 本 中 增加 了 对 share memory 的 写 和 人 和 读 取 操作 ， 可 能 一 定 程 度 上 带 来 了 性 能 的 下 
降 , 但 CoalescedWrite gpuResize Linear 版 本 仍然 优 于 基础 实现 。 

依据 5. 5. 3 小 节 和 图 5-31 可 知 ， 在 数据 规模 大 、 通 道 数 为 3 的 情况 下 ， 基 于 
Vectorize _ gpuResize _ Linear 基础 上 进行 优化 的 CoalescedRead _ gpuResize _ Linear 
版 本 拥有 相 较 于 其 他 resize 版 本 更 好 的 优势 。 对 于 每 个 像素 点 含有 数据 单元 为 3 的 
图 像 ， 每 一 次 进行 reszie 算法 运算 时 ， 只 需要 进行 一 次 的 运算 过 程 就 可 以 确立 三 个 
数据 单元 的 位 置 ， 其 效率 无 疑 高 于 通道 1 的 情况 ， 而 且 由 于 block 所 需 源 图 像 的 信 
息 已 经 拷贝 至 share memory， 数 据 量 越 多 ， 则 对 share memory 的 利用 率 越 高 ， 更 有 
效 地 降低 了 Vectorize gpuResize Linear 中 对 global memory 的 不 规则 访问 所 带 来 的 
性 能 下 降 。 依 据 图 5-29 和 图 5-31， 在 源 图 像 为 512 x512 ， 目 标 图 像 为 1024 x 1024 
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的 数据 规模 下 ，CoalescedRead — gpuResize _ LinearResize 算法 版 本 的 运行 时 间 为 
0. 2199ms ， 相 较 于 串 行 resize 算法 12. 299ms 的 运行 时 间 ， 其 加 速 比 达 55. 61, 


5.6 Laplace 算法 


5.6.1 算法 简介 及 分 析 


Laplace 算法 是 基本 图 像 增强 算法 ， 是 图 像 锐 化 处 理 的 一 个 基本 工具 。 图 片 通 
过 该 算法 可 以 增强 图 像 中 灰 度 的 突变 区 域 的 对 比 度 ， 从 而 产生 一 幅 把 图 像 中 的 浅 灰 
色 边 线 和 突变 点 县 加 到 暗 背 景 中 的 图 像 ， 从 而 使 图 像 的 细节 部 分 更 加 清晰 。La- 
place 算 子 模块 如 图 5-32 所 示 。 

Laplace 算 子 是 最 简单 的 各 向 同性 微分 子 ， 同 时 也 是 Laplace 算法 的 基本 理论 依 
据 ， 并 具有 旋转 不 变性 。 二 维 图 像 的 拉 普 拉 斯 算 子 可 定义 为 各 向 同性 的 二 阶 导数 : 


2 IS OS : 
TAANIS 59 ap (5-3) 




















公式 (5$-3 ) 的 离散 化 表示 形式 为 
VfCx,y) =[flw tly) +f(w-1,y) +f xsy +1) +f(x,y -1)] -4f(x,y) 
(5-4) 
即 该 方程 的 实际 运算 是 求 原始 3 x 3 AES 3 x3 的 模板 矩阵 的 内 积 ， 从 而 得 出 目 
PRERE, 





























BAR TE BE Laplace 算 子 扩展 模板 
图 5-32 Laplace 算 子 模板 
因为 二 维 图 像 在 内 存 中 的 存储 形式 可 定义 为 二 维和 矩阵 。 因 此 ， 为 简 音 起见， 本 
节 讨 论 的 Laplace 算法 直接 使 用 矩阵 来 代替 图 像 ， 其 数据 类 型 为 uchar (unsigned 
char) 。 为 充分 发 挥 CPU 大 规模 并 行 处 理 的 特性 ， 我 们 选取 通道 数 为 1 的 图 像 (K 
示 黑 白 图 像 ) 。 


5.6.2 并 行 性 分 析 


从 上 述 分 析 ，Laplace 算法 的 核心 思想 是 将 表示 图 像 的 二 维和 矩阵 根据 Laplace 算 
子 进行 9 点 差分 运算 ,在 本 算法 中 ,初始 矩阵 和 目标 和 矩阵 位 于 不 同 的 内 存 区 域内 ， 
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因此 每 个 元 素 的 Laplace 变换 不 存在 读 写 依赖 关系 ， 可 以 并 行 执行 ， 符 合 CPU KA 
模 并 行 执行 的 特点 ， 而 且 该 算法 属于 访 存 密 集 型 。 对 此 本 章 通过 提高 访 存 效 率 ， 合 
理 使 用 GPU 硬件 资源 对 算法 进行 优化 。 

在 Laplace 算法 中 ， 每 一 个 元 
素 的 变换 都 需要 从 初始 矩阵 中 读 
取 自 身 及 周围 的 8 个 元 素 。 然 后 
根据 Laplace 算 子 进行 8 次 加 法 和 
9 次 乘法 运算 。 除 此 之 外 ， 还 需 
要 9 次 的 迭代 计算 和 10 次 的 地 址 
计算 ， 而 每 次 地 址 计算 都 需要 1 
次 字符 数 乘法 和 加 法 计算 。 最 后 











将 计算 结果 写 回 目标 矩阵。 由 于 a= Ts. DMD 
Laplace 算 子 矩阵 规模 较 小 ， 可 直 人 

接 放 在 具有 极 高 访 存 带 宽 的 片上 D: HARM 

常量 缓存 中 ， 所 以 计算 密度 不 需 TE A a 








要 考虑 Laplace 算 子 矩阵 的 读 和 人 操 
作 。 再 者 Laplace 算法 本 身 具 有 数 
据 重用 特性 ， 如 图 5-33 tae, 4E 图 5-33 Laplace 算法 的 基本 原理 
阵 元 素 (1，1) 进行 Laplace 处 理 时 ， 需 要 加 载 (0, 2) 和 (2, 2) 两 个 矩阵 元 
素 ， 而 这 两 个 矩阵 元 素 在 对 符 阵 元 素 (1, 2) 进行 Laplace 变换 时 也 需要 用 到 。 
此 ， 使 用 本 地 内 存 实现 数据 本 地 化 ， 以 提高 算法 的 计算 密度 和 数据 重用 ， 是 提高 
Laplace 算法 性 能 的 重要 方法 。 

每 个 线程 负责 计算 一 个 目标 矩阵 的 元 素 ， 通 过 中 心 元 素来 确定 坐标 位 置 ， 并 读 
取 8 个 边界 元 素 。 这 种 初步 实现 算法 容易 实现 ,但 是 由 于 global memory 访 存 效率 
不 高 ， 以 及 相 邻 两 个 点 的 计算 是 需要 重复 读 取 6 个 元 素 导致 访 存 片 外 内 存 的 开销 增 
大 ， 如 图 5-34 所 示 。 为 了 提高 算法 的 性 能 ， 还 需 通过 了 解 算法 特性 和 底层 硬件 资 
源 特征 ， 实 现 两 者 的 有 效 映 射 。 









































黑色 部 分 为 边界 疱 索 ,白色 为 中 心 瑟 索 计算 相 邻 陋 个 中 心 元 素 重 复 的 6 个 数据 
图 5-34 Laplace 算法 分 析 图 
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5.6.3 Laplace 算法 优化 


1. 数据 本 地 化 

常量 内 存 与 全 局 内 存 读 取 数据 相 比 ， 从 常量 内 存 读 取 相 同 的 数据 可 以 节约 带 
宽 ， 因 为 对 常量 内 存 的 单 次 读 操 作 可 以 广播 到 同一 线程 块 内 的 其 他 线程 。 由 于 La- 
place 的 模板 矩阵 较 小 且 重 用 率 高 ， 所 以 完全 可 以 放 和 人 党 量 内 存 中 。 

将 图 像 划分 为 多 个 块 ， 一 个 线程 块 加 载 一 个 图 像 块 到 共享 内 存 中 ， 再 进行 滤波 
处 理 。 线 程 块 中 ， 一 个 线程 将 共享 内 存 相 应 位 置 处 的 图 像 元 素 与 模板 矩阵 进行 9 点 
差分 运算 ， 计 算得 出 一 个 输出 像素 。 由 于 调 人 共享 内 存 中 的 图 像 矩 阵 与 模板 矩阵 进 
行 计算 时 ， 会 出 现 依赖 不 存在 共享 内 存 的 图 像 像 素 ， 所 以 需要 对 边界 进行 处 理 。 

在 Laplace 算法 中 ， 边 界 元 素 的 计算 需要 根据 不 同 边界 类 型 加 载 不 同 的 计算 元 
素 ， 于 是 产生 了 条 件 分 支 。 由 于 要 消除 条 件 分 支 ， 需 要 在 共享 内 存 中 根据 边界 类 型 
对 和 矩阵 进行 填充 ， 消 除 边 界 元 素 。 不 过 ， 除 此 之 外 还 可 使 用 ?: 语句 来 代替 判断 语 
句 。 当 ?: 语句 中 没有 访 存 指令 时 ， 该 语句 会 编译 成 一 条 指令 。 在 本 小 节 中 ， 我 们 
使 用 第 一 种 方法 。 

本 文 是 通过 将 原始 像素 矩阵 的 三 行 像素 读 人 共享 内 存 中 ， 再 通过 模板 矩阵 对 读 
人 数据 进行 处 理 ， 通 过 向 量化 ， 一 个 线程 处 理 4 个 数据 。 

2. 向 量化 

GPU 的 每 个 SM ( 流 多 处 理 器 ) 有 32768 个 寄存 器 。 一 个 SM 可 以 看 作 是 一 个 
多 线程 的 CPU KH, Æ TKI 上 只 有 一 个 SM。 虽 然 开 普 勒 架 构 上 的 SM 数量 比 早期 的 
一 些 设备 要 少 ， 但 是 开 普 勒 架构 设备 上 SM 具有 更 多 的 SP ( 流 处 理 器 ) ， 对 于 TKI 
来 说 其 拥有 192 个 cuda core。 寄 存 器 是 NVIDIA GPU 存储 器 空间 中 访 存 性 能 最 高 的 
存储 器 ， 但 是 GPU 上 寄存 器 的 数量 有 限 ， 所 以 向 量化 时 应 避免 寄存 器 的 过 度 使 用 。 
本 节 使 用 向 量化 长 度 为 4， 即 每 个 线程 处 理 四 个 元 素 ,， 可 大 大 提高 访 存 带宽 利 
用 率 。 

就 大 多 数 程序 而 言 ， 影 响 性 能 的 因素 主要 来 自 设备 获取 输入 数据 和 写 回 输出 数 
据 的 O 速度 。 片 外 访 存 带宽 是 CPU kernel， 特 别 是 访 存 密集 型 的 算法 的 主要 影响 
因素 。 通 过 最 大 限度 地 将 计算 数据 从 片 外 转移 到 片上 的 寄存 器 上 ， 实 现 数据 的 共 
享 ， 从 而 减少 对 访 存 带 宽 的 依赖 ， 是 缓解 这 种 限制 因素 的 主要 方法 。 

由 于 Laplace 算法 是 连续 访 存 的 ， 且 是 数据 访 存 密集 型 算法 ， 提 高 访 存 效率 ， 
隐藏 访 存 延 迟 ， 对 提高 程序 的 性 能 有 很 大 的 帮助 ， 所 以 本 小 节 用 此 算法 来 实现 向 量 
化 的 对 程序 的 性 能 提升 。 


5.6.4 性 能 分 析 


= po 


本 小 节 实 验 运行 的 GPU 为 NVIDIA Tegra K1, 
Laplace 算法 在 TK1 异 构 计 算 平 台 下 的 性 能 优化 是 通过 将 数据 存 人 寄存 器 中 ， 
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缓解 算法 对 访 存 的 依赖 ; 通过 向 量化 开局 少 于 数据 量 的 线程 ， 达 到 一 个 线程 处 理 多 
个 数据 ， 增 加 线程 的 运算 时 间 ， 从 而 来 隐藏 访 存 延 迟 。 如 图 5-35 (UE) 所 示 ， 
相继 通过 不 同 存储 类 型 的 向 量化 处 理 后 ， 算 法 性 能 最 终 提高 了 5.27 倍 ， 我 们 可 以 
得 到 以 下 结论 : 由 于 Laplace 算法 自身 特点 ， 需 要 对 相同 的 某 一 内 存 进行 多 次 读 
写 ， 而 且 算 法 的 访 存 方式 为 不 连续 访 存 。 因 此 ， 通 过 使 用 本 地 内 存 和 片上 常量 缓存 
实现 数据 本 地 化 可 有 效 提 升 算 法 性 能 。 数 据 本 地 化 一 方面 可 实现 数据 共享 ， 减少 对 
片 外 访 存 的 带宽 的 依赖 ， 男 一 方面 可 增加 计算 密度 。 合 适 的 向 量 长 度 有 助 于 充分 利 
用 硬件 的 计算 资源 ， 从 而 提高 程序 性 能 。 











2.50 5.38 
5.36 
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名 ~ 
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图 5-35 Laplace 算法 对 应 不 同 大 小 的 图 片 的 性 和 
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5.7 ”本章 小 结 


随 着 计算 能 力 的 不 断 提高 和 可 编程 性 的 不 断 增强 ，GPU 的 应 用 领域 越 来 越 广 
Z, GPU 并 行 计 算 的 优势 与 日 俱 增 ， 合 理 安排 线程 组 织 结构 ， 避 免 分 支 ， 合 理 利 
用 片上 资源 ， 以 降低 访 存 次 数 ， 提 高 GPU 计算 资源 的 有 效 利 用 率 ， 是 提高 程序 性 
能 的 通用 方法 。 

本 章 首 先 介绍 NVIDIA GPU 和 AMD GPU 两 种 不 同 硬件 异 构 平台 上 访 存 优化 的 
方法 。 以 和 矩阵 转 置 算法 、 规 约 算法 resize 算法 、Laplace 算法 为 实例 ， 从 访 存 优化 
的 角度 和 手 ， 详 细 地 叙述 了 在 CUDA 和 OpenCL 两 种 平台 下 的 优化 策略 ， 以 及 获得 
更 高 性 能 的 方法 。 
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边缘 检测 算法 被 广泛 应 用 于 视频 图 像 分 割 和 检索 、 机 器 视觉 及 智能 驾驶 等 多 个 
领域 。 随 着 实际 应 用 中 视频 图 像 数据 的 增 大 和 分 辨 率 的 提高 ， 边 缘 检 测算 法 的 性 能 
成 为 制约 视频 图 像 实 时 处 理 的 关键 。 然 而 GPU 的 优化 工作 一 直 是 重点 和 难点 ， 本 
章 选 取信 噪 比 大 和 检测 精度 高 的 Canny 边缘 检测 算法 ， 在 NVIDIA Tegra K1 异 构 计 
算 平 台 上 ， 结 合 硬件 架构 和 Canny 算法 特性 ， 探 索 Canny 边缘 检测 算法 的 GPU 优 
化 方法 和 视频 图 像 处 理 算法 的 一 般 GPU 优化 策略 。 








6.1 引言 


6.1.1 边缘 检测 相关 概述 


图 像 与 视频 是 两 种 最 常见 的 可 视 媒 体 ， 是 人 类 感知 世界 的 视觉 基础 ， 是 人 类 获 
取信 息 、 表 达 信 息 和 传递 信息 的 重要 手段 。 视 频 图 像 处 理 是 通过 计算 机 对 视频 图 像 
进行 去 品 、 增 强 、 复 原 、 分 割 、 特 征 提取 等 处 理 的 技术 与 方式 。 从 视频 图 像 中 抽取 
某 些 有 用 的 度量 、 数 据 或 信息 ， 用 于 各 种 自动 化 的 系统 ， 如 字符 和 图 形 识别 、 指 纹 
识别 、 边 缘 检测 和 自动 驾驶 中 的 行人 检测 等 。 

边缘 是 图 像 最 基本 的 、 不 变 的 特征 ， 它 能 在 保留 图 像 中 物体 的 形状 信息 的 前 提 
下 大 大 地 减少 所 要 处 理 的 信息 ， 因 此 边缘 检测 是 图 像 处 理 领域 中 最 基本 的 问题 ， 它 
的 解决 对 于 高 层次 的 特征 提取 、 特 征 描述 、 目 标识 别 和 图 像 理解 等 有 着 极其 重要 的 
影响 。 边 缘 是 图 像 局 部 灰 度 发 生 急剧 变化 的 不 连续 地 方 ， 主 要 存在 于 目标 与 目标 、 
目标 与 背景 、 区 域 与 区 域 (包括 不 同色 彩 ) 之 间 。 边 缘 检 测 就 是 要 将 图 像 中 灰 度 
不 连续 的 地 方 检测 出 来 ， 关 于 边缘 检测 的 定义 有 很 多 种 ， 其 中 最 为 常用 的 一 种 定义 
为 : 边缘 检测 是 根据 引起 图 像 灰 度 变 化 的 物理 过 程 来 描述 图 像 中 灰 度 变化 的 过 程 。 
由 于 边缘 检测 是 定位 灰 度 级 的 变化 ， 因 此 通常 使 用 微分 法 来 定位 边缘 。 

经 典 的 边缘 检测 方法 是 考察 图 像 的 每 个 像素 在 某 个 邻 域内 的 突变 性 ， 通 过 求 出 
图 像 横向 和 纵向 的 一 阶 或 二 阶梯 度 的 模 值 和 幅 角 值 ， 最 后 沿 幅 角 方向 求 出 模 极 大 值 
得 到 图 像 的 边缘 。 如 典型 的 Sobel 算 子 、Prewitt HF, LOG 算 子 等 。 这 些 算 子 简 
单 ， 易 于 实现 ， 具 有 很 好 的 实时 性 ， 但 对 噪声 较 敏 感 ， 抗 干扰 性 能 差 ， WAAR 


124 















































第 6 章 Canny 边缘 检测 算法 优化 eee 





精细 。 

1986 年 ，John F. Canny 开发 了 一 个 多 级 边缘 检测 算法 ， 即 Canny 边缘 检测 算 
子 。 更 为 重要 的 是 ，Canny 创立 了 “边缘 检测 计算 理论 ” (computational theory of 
edge detection) 解释 这 项 技术 如 何 工 作 。Canny 的 目标 是 找到 一 个 最 优 的 边缘 检测 
算法 ， 最 优 边缘 检测 的 含义 是 : 

口 好 的 检测 : 算法 能 够 尽 可 能 多 地 标识 出 图 像 中 的 实际 边缘 。 

口 好 的 定位 : 标识 出 的 边缘 要 与 实际 图 像 中 的 实际 边缘 尽 可 能 接近 。 

口 最 小 响应 : 图 像 中 的 边缘 只 能 标识 一 次 ， 并 且 可 能 存在 的 图 像 噪声 不 应 标识 
为 边缘 。 

为 了 满足 这 些 要 求 ，Canny 使 用 了 变 分 法 ， 这 是 一 种 寻找 满足 特定 功能 的 函数 
的 方法 。 最 优 检测 使 用 四 个 指数 函数 项 的 和 表示 ， 但 是 它 非 常 近似 于 高 斯 函数 的 一 
阶 导数 。 最 终 相 比 传统 的 微分 算 子 ，Canny 边缘 检测 算法 因 具 有 信 噪 比 大 和 检测 精 
度 高 的 优点 ， 被 广泛 应 用 。 


6.1.2 视频 图 像 处 理 问题 及 方法 


从 视频 图 像 处 理 技术 诞生 开始 ， 由 于 开始 的 视频 图 像 数据 量 较 小 和 人 们 对 信息 
的 需要 量 较 少 ， 视 频 图 像 处 理 技术 面临 的 主要 问题 是 提取 信息 的 精度 问题 和 效果 问 
题 。 然 而 随 着 实际 应 用 中 视频 图 像 数 据 的 增 大 和 分 状 率 的 提高 ， 视 频 图 像 处 理 算法 
的 性 能 成 为 制约 视频 图 像 实时 处 理 的 关键 要 素 ， 虽 然 经 过 多 年 研究 ， 它 仍然 是 一 个 
热点 研究 领域 。 

为 了 解决 视频 图 像 处 理 的 实时 性 问题 ， 人 们 探索 了 多 个 解决 方式 。 一 方面 继续 
按照 摩尔 定律 增加 晶体 管 的 数量 和 优化 CPU 算法 以 提升 CPU 的 处 理性 能 ， 但 是 在 
TB 甚至 PB 量 级 的 数据 规模 下 传统 的 方式 遇 到 能 耗 和 散热 的 问题 ; 另 一 方面 ， 随 
着 并 行 计 算 的 不 断 发展 和 编程 模型 的 不 断 完善 ， 很 好 地 解决 了 当前 视频 图 像 处 理 面 
临 数据 量 的 飞速 增长 和 海量 数据 分 析 处 理 带 来 的 性 能 问题 。 

近年 来 ，GPU 计算 能 力 和 可 编程 性 不 断 提高 ,为 这 一 问题 的 解决 带 来 了 真正 
的 契机 。 与 CPU 相 比 ，GPU 具有 更 高 的 计算 能 力 和 访 存 带宽 ， 大 规模 细 粒 度 并 行 
的 特性 也 可 以 充分 挖掘 算法 的 并 行 特性 ， 这 将 极 大 提升 图 像 处 理 算法 的 性 能 。2014 
年 ，NVIDIA 发 布 了 NVIDIA Tegra K1 移动 处 理 右 。NVIDIA Tegra K1 计算 平台 是 由 
包含 192 个 NVIDIA CUDA 核心 的 NVIDIA Kepler GPU 和 四 核 ARM Cortex - A15 
CPU 组 成 的 异 构 计 算 平台 。 因 其 具有 强大 的 数据 处 理 能 力 、 体 积 小 和 低能 耗 等 多 
个 优点 而 被 广泛 应 用 于 游戏 、 安 放 实 时 监控 和 智能 驾驶 等 领域 。 本 章 工 作 主 要 利用 
了 NVIDIA Tegra K1 计算 平台 中 的 GPU, 

GPU 优化 工作 一 直 是 一 个 难点 ， 本 章 主要 参考 NVIDIA 官网 文档 和 相关 文献 ， 
从 全 局 内 存 访 存 效 率 、 数 据 本 地 化 和 条 件 分 支 三 个 方面 ， 提 出 了 针对 异 构 计 算 平台 
Kepler GPU 特性 和 大 多 数 图 像 处 理 算法 的 高 效 的 、 通 用 的 若干 优化 策略 ， 以 及 实 
现 一 个 高 效 的 Canny 边缘 检测 算法 。 
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6.2 国内 外 研究 现状 


边缘 检测 算法 是 图 像 处 理 中 的 重要 算法 之 一 ， 国 内 外 有 不 少 人 研究 边缘 检测 算 
法 或 Canny 边缘 检测 算法 ， 其 中 也 不 乏 优 秀成 果 。 比 如 董 鸿 燕 通 过 论述 边缘 检测 的 
基础 理论 ， 归 纳 并 评述 了 边缘 检测 的 几 种 主要 方法 和 几 种 边缘 检测 算法 评价 标准 ， 
分 析 了 边缘 检测 中 存在 的 难点 ， 指 出 当前 边缘 检测 研究 中 存在 的 几 个 问题 ， 并 提出 
了 相关 问题 的 解决 方案 。Saining Xie 和 Zhuowen Tu 等 人 开发 了 一 种 新 的 边缘 检测 
方法 ， 通 过 充分 利用 卷 积 神经 网 络 的 模型 进行 图 像 的 深度 学 习 并 进行 图像 与 图 像 之 
间 的 预测 ， 主 要 解决 了 边缘 检测 和 目标 边界 检测 之 间 的 混 消 。Canny 论述 了 传统 的 
边缘 检测 方法 ， 并 提出 了 更 为 有 效 的 Canny 边缘 检测 算 子 ， 并 详细 解释 了 Canny 边 
缘 检 测算 子 的 实现 方式 。 许 宏 科 、 秦 严 严 、 陈 会 站 等 人 在 Canny 边缘 检测 算法 的 基 
础 上 实现 高 斯 滤波 方差 和 高 低 阔 值 的 自 适 应 取 值 ， 并 且 在 噪声 环境 中 具有 更 优 的 检 
测 效果 和 自 适 应 性 。 这 些 研究 的 共同 点 在 于 都 是 从 边缘 检测 的 原理 和 检测 效果 的 角 
度 研究 边缘 检测 算法 ， 实 现 或 研发 出 一 个 更 优 的 边缘 检测 算法 。 

随 着 科技 的 迅猛 发 展 ， 当 前 图 像 处 理 算法 所 面临 的 更 加 重要 的 问题 是 图 像 处 理 
算法 的 性 能 问题 ， 边 缘 检测 算法 也 不 例外 。 同 时 ， 单 一 地 增加 CPU 的 晶体 管 数量 来 
提升 性 能 的 传统 方式 遇 到 了 能 耗 和 散热 瓶颈 。 随 着 CPU 计算 能 力 和 可 编程 性 不 断 提 
高 ， 为 这 一 问题 的 解决 带 来 了 真正 的 契机 ， 将 图 像 处 理 算法 移植 到 GPU 计算 平台 上 ， 
并 通过 细 粒 度 调 优 提高 图 像 处理 算 法 的 性 能 一 直 是 研究 热点 。 相 关 人 士 在 该 领域 有 了 
一 些 优秀 的 探索 和 理论 ， 比 如 Shane Cook 在 书 中 介绍 了 CUDA 编程 ， 并 且 以 NVIDIA 
GPU 为 例 详细 站 述 了 相关 GPU 架构 和 编程 模型 。Timothy G. Mattson, Beverly A. 
Sanders 和 Berna L. Massingill 等 人 从 寻找 并 行 性 、 算 法 结构 、 支 持 结构 和 实现 机 制 等 
角度 深入 介绍 了 并 行 编程 模式 的 分 类 、 定 义 、 实 现 、 选 择 及 应 用 ， 同 时 提供 了 从 问题 
描述 到 最 终 编码 的 完整 解决 方案 。NVIDIA 官方 提供 的 CUDA 编程 指南 ， 详 细 介 绍 了 
CUDA 编程 模型 ， 为 开发 者 提供 了 详细 的 编程 开发 指南 。 

GPU 优化 是 最 重要 也 是 最 困难 的 工作 ， 目 前 国内 外 也 有 不 少 相 关 的 研究 。 
NVIDIA 官方 提供 的 NVIDIA GPU 优化 文档 ， 详 细 介 绍 了 所 有 NVIDIA GPU 的 架构 
特性 以 及 优化 策略 。 备 小 华 和 芝 旨 等 人 将 大 规模 的 图 像 处 理 移植 到 GPU 平台 上 ， 
并 初步 实现 了 对 网 像 的 实时 处 理 ， 并 在 一 定 程度 上 缓解 了 图 像 处 理 的 性 能 瓶颈 问 
题 。 深 军 等 人 通过 优化 矩阵 转 置 算法 和 拉 普 拉 斯 滤波 算法 ， 人 研究 了 NVIDIA Tegra 
K1 的 片 外 访 存 ， 说 明了 片 外 访 存 的 合理 使 用 和 优化 的 重要 性 。 贾 海 鹏 等 人 在 不 同 
GPU 平台 底层 硬件 架构 的 基础 上 ， 以 拉 普 拉 斯 滤波 为 例 ， 从 多 个 角度 考察 不 同 优 
化 方法 在 不 同 GPU 硬件 平台 上 对 性 能 的 影响 。 贾 海 鹏 论述 了 GPU 的 两 种 不 同 编程 
模型 ， 对 GPU 平台 的 并 行 优化 进行 了 深层 次 的 研究 ， 针 对 规则 应 用 和 非 规 则 应 用 
提出 了 面向 GPU 计算 平台 的 若干 优化 关键 技术 。 通 过 编译 器 指令 进行 细节 优化 也 
是 值得 我 们 注意 的 。 关 于 Canny 边缘 检测 算法 的 GPU 移植 和 优化 ， 大 多 数 人 做 得 
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并 不 理想 ， 并 没有 开发 出 GPU 强大 的 计算 能 力 和 结合 算法 的 特性 优化 。 比 如 张 龙 
将 Canny 边缘 检测 算法 移植 到 GPU 上 ,但 并 没有 根据 算法 和 硬件 特性 优化 算法 。 
Yuancheng Luo 和 RamaniDuraiswam 在 NVIDIA GPU 上 实现 了 并 行 的 Canny 边缘 检测 
算法 ,但 也 仅仅 通过 片上 内 存 的 使 用 与 优化 实现 了 1.6 ~3.8 倍 的 性 能 加 速 比 。 目 
前 这 些 对 Canny 边缘 检测 算法 的 研究 还 远 远 没有 发 挥 CPU 强大 的 计算 能 

国内 外 鲜 有 人 在 NVIDIA Tegra Kl 异 构 计 算 平 台 上 利用 GPU 优化 Canny 边缘 检 
测算 法 ，Canny 边缘 检测 算法 在 GPU 上 的 性 能 仍然 有 很 大 的 提升 空间 。 


6.3 Canny 边缘 检测 算法 简介 


边缘 包含 着 重要 的 视觉 信息 ， 因 为 它们 描绘 出 图 像 元 素 的 轮廓 。 因 为 这 个 原 
因 ， 它 们 可 以 用 于 物体 检测 。 然 而 ， 简 单 的 二 值 边 缘 图 像 有 两 大 缺点 。 第 一 点 ， 检 
测 到 的 边缘 过 粗 ， 这 意味 着 难以 实现 物体 的 精确 定位 。 第 二 点 ， 也 是 最 重要 的 一 
点 ， 难 以 找到 一 个 闵 值 ， 既 能 足够 低 ， 检 测 到 所 有 重要 边缘 ， 同时 又 不 至 于 包含 过 
多 次 要 的 边缘 。 这 个 需要 权衡 的 问题 正 是 Canny 边缘 检测 算法 尝试 解决 的 。Canny 
边缘 检测 算法 主要 由 灰 度 化 、 滤 波 、 计 算 梯 度 幅 值 和 方向 、 非 极 大 值 抑制 以 及 递归 
确定 边缘 五 大 部 分 组 成 ， 如 图 6-1 所 示 。 

















图 6-1 Canny 边缘 检测 算法 步骤 示意 图 


1. KEW 

一 般 情况 下 ， 在 进行 边缘 检测 前 需要 先 对 图 像 进行 灰 度 化 和 滤波 处 理 。 灰 度 化 
值 是 将 3 通道 B、G、R 分 别 乘 以 一 定 的 权重 再 相 加 而 得 到 的 值 。 灰 度 化 是 为 了 简 
化 对 图 像 的 后 续 处 理 ， 减 少 图 像 的 复杂 度 和 信息 处 理 量 。 灰 度 图 像 能 以 较 少 的 数据 
言 息 表征 图 像 的 大 部 分 特征 ， 使 得 这 些 算法 大 部 分 都 需要 在 预 处 理 部 分 进行 彩色 图 
像 灰 度 化 。 在 此 三 维 向 一 维 降 维 的 过 程 中 ,信息 的 丢失 是 不 可 避免 的 ， 具 体 效 果 如 
图 6-2 ( 见 彩 插 ) 所 示 。 

2. 滤波 

同时 ， 由 于 边缘 检测 算法 主要 是 基于 图 像 强 度 的 一 阶 和 二 阶 导 数 ， 但 是 导数 通 
篆 对 噪声 很 敏感 。 因 此 必须 采用 滤波 器 来 改善 与 噪声 有 关 的 边缘 检测 需 的 性 能 ， 本 
文 统 一 采用 均值 滤波 。 即 某 一 点 滤波 后 的 值 等 于 该 点 原 数 据 及 8 个 邻 域 像素 值 的 平 
均值 。 滤 波 具体 效果 如 图 6-3 所 示 。 

3. 计算 梯度 幅 值 和 方向 

为 了 判断 某 像 素 点 在 梯度 方向 是 否 局 部 最 大 ， 完 成 非 极 大 值 抑制 。 就 必须 计算 
该 点 的 梯度 幅 值 和 方向 。OpenCV 的 Canny 算 子 此 处 用 Sobel 滤波 器 完成 。 

1) 运用 一 对 卷 积 阵列 (x, y 方向 ) ， 求 导数 。 
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a) REI b) Be AEA 
Al6-2 灰 度 化 效果 图 
-1 0 +1 -1 -2 -1 
TE 0 +2 -| 0 J (6-1) 
-1 0 +1 +1 +2 +1 
2) 使 用 下 列 公 式 计算 梯度 幅 值 和 方向 。 
6 =1 G 1+1 61,0 = arctan( ©) (6-2) 


x 


在 实际 当中 ,为 了 方便 判断 和 提高 效率 ， 梯 度 方向 一 般 取 0>、45*、90? 135° FA 
度 之 一 。 

4， 非 极 大 值 抑制 

在 Canny 算法 中 ， 非 极 大 值 抑制 是 进行 边缘 检测 的 重要 步骤 。 非 极 大 值 抑制 是 
指 在 梯度 方向 上 该 点 与 相 邻 的 两 点 相 比 较 ， 如 图 6-4 所 示 。 








图 6-3 ”滤波 效果 图 图 6-4” 非 极 大 值 抑制 示意 图 
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如 果 该 点 局 部 最 大 ， 则 标记 为 可 能 边缘 点 。 这 样 就 排除 非 边缘 像素 ， 仅 仅 保留 
一 些 候 选 边缘 。 但 是 ， 这 样 还 是 包含 了 很 多 由 噪声 及 其 他 原因 造成 的 假 边 缘 。 因 此 
iB ie Ze BM AE i EL, IMB o 

Canny 算法 中 减少 假 边 缘 数 量 的 方法 是 采用 双 阔 值 法 。 具 体 边缘 点 判断 方式 如 下 : 

O 若 某 一 像素 点 的 幅 值 大 于 高 装 值 ， 该 像素 点 被 保留 为 边缘 点 。 

O 若 某 一 像素 点 的 幅 值 小 于 低 装 值 ， 该 像素 点 被 排除 。 

O 若 某 一 像素 点 的 幅 值 在 两 阀 值 之 间 ， 该 像素 点 被 保留 为 可 能 边缘 点 。 

5. 递归 确 定 边缘 

从 非 极 大 值 抑制 可 以 看 出 ， 只 需要 判断 可 能 边缘 是 否 为 最 终 边 缘 点 。 判 断 的 方 
式 : 以 最 终 边缘 点 为 中 心 点 ， 在 中 心 点 8 个 邻 域 寻找 可 能 边缘 点 ， 知 找到 可 能 边缘 
点 ， 将 该 点 标记 最 终 边 缘 点 ， 再 以 该 点 为 中 心 点 再 次 寻找 ， 直 到 找 出 所 有 符合 要 求 
的 点 。 最 后 将 所 有 最 终 边缘 点 连接 。 


6.4 并 行 性 分 析 及 GPU 实现 





6.4.1 并 行 性 分 析 


编写 并 行程 序 的 第 一 步 就 是 分 析 算 法 中 的 并 行 性 ， 不 同 的 并 行 性 可 以 通过 不 同 
的 并 行 化 方法 实现 。 并 行 性 主要 分 为 数据 并 行 性 和 功能 并 行 性 。 数 据 并 行 性 是 指 大 
量 实验 数据 的 计算 可 以 被 并 行 执行 ， 即 多 处 理 顺 在 不 同 的 数据 上 进行 并 行 计 算 ， 不 
过 要 注意 这 和 SIMD 并 行 概念 的 区 别 。 功 能 并 行 性 指 一 个 庞大 的 计算 可 以 被 分 为 或 
多 或 少 相 互 独立 的 子 任务 ， 子 任务 间 通 过 数据 交换 和 同步 协同 工作 ， 而 子 任务 间 在 
不 同 的 数据 集 上 执行 不 同 的 代码 。 功 能 并 行 性 在 性 能 方面 有 利 有 弊 ， 当 不 同 的 子 任 
务 有 不 同 的 性 能 特征 或 者 不 同 的 硬件 需求 时 ， 容 易 出 现 性 能 瓶颈 或 者 负载 不 均衡 等 
问题 。 另 一 方面 ， 任 务 间 重 受 执 行 可 以 极 大 提升 程序 性 能 。 

一 般 而 言 ， 并 行 性 意味 着 不 相关 /独立 ， 更 具体 点 就 是 一 些 计算 任务 和 另 一 些 
计算 任务 无 关 ， 那 么 它们 之 间 就 可 并 行 。 或 者 作用 在 菜 些 数据 上 的 操作 与 作用 在 另 
一 些 数据 上 的 操作 无 关 ， 也 可 并 行 。 或 同样 的 操作 作用 在 不 同 的 数据 上 。 

从 Canny 边缘 检测 算法 简介 可 以 看 出 ， 灰 度 化 算法 属于 同样 的 操作 作用 在 不 同 
的 数据 上 ， 其 他 部 分 算法 是 作用 在 某 些 数据 上 的 操作 与 作用 在 男 一 些 数据 上 的 操作 
无 关 。 而 且 各 部 分 算法 还 是 访 存 密集 型 算法 。 因 此 ， 该 算法 具有 很 高 的 可 并 行 性 。 


6.4.2 基于 NVIDIA Tegra K1 的 GPU 实现 与 分 析 


由 6.4.1 节 可 以 看 出 ， 在 Canny 算法 中 ， 数 据 与 数据 间 不 存在 依赖 关系 。 即 该 
算法 具有 很 高 的 可 并 行 性 ， 通 过 开启 大 量 线程 ， 尽 量 发 挥 硬件 的 计算 能 力 ， 以 减少 
延迟 或 提高 吞吐 量 。 

1， 灰 度 化 算法 

GPU 并 行 过 程 中 ,以 CV 8UC3 类 型 M x N 大 小 的 图 像 为 例 ， 需 要 开启 MxN 
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个 线程 ， 每 一 个 线程 处 理 源 图 像 每 个 像素 点 的 3 个 通道 的 B、G、R， 即 3 个 数据 ， 
计算 出 该 点 的 灰 度 值 ， 并 存 人 目标 图 像 (CV _8UC1 ) 。 该 初始 版 本 ， 访 存 有 效 带 
宽 仅 4. 0901CB/s。 这 种 基本 实现 算法 的 优点 在 于 易 理 解 ， 易 实现 。 但 是 这 种 算法 

的 性 能 十 分 不 理想 ， 主 要 原因 在 于 global memory 访 存 效率 不 高 。 

2. 滤波 与 计算 梯度 及 极 大 值 抑制 

计算 梯度 值 算法 的 本 质 也 是 一 种 滤波 算法 ， 与 blur 函数 一 样 是 将 图 像 与 3 x3 
的 内 核 进行 卷 积 操 作 ， 只 不 过 计算 梯度 值 算 法 还 需要 将 两 次 卷 积 进行 加 运算 。 非 极 
大 值 抑制 与 滤波 算法 访 存 类 似 ， 读 取 9 个 数据 进行 处 理 。 即 三 者 的 访 存 类 型 是 完全 
一 样 的 。 所 以 ， 在 这 里 我 们 把 计算 梯度 值 、blur 函数 和 非 极 大 值 抑制 的 并 行 移植 与 
实现 放 在 一 起 解析 。 

由 上 文 的 阐述 可 知 ， 处 理 MxN 大 小 的 图 像 需 要 开启 M x N 个 线程 ， 每 一 个 线 
程 计算 一 个 像素 点 ， 同 时 根据 给 定 的 边界 类 型 处 理 图 像 的 边界 。 

对 于 这 两 类 算法 也 存在 Æ global memory 访 存 效率 低 的 问题 。 同 时 ， 计 算 相 邻 两 
个 点 时 会 重复 读 取 6 个 数据 〈 事 实 上 极 大 值 抑制 算法 数据 重用 度 并 不 高 ) ， 极 大 地 
增加 了 对 global memory 的 访 存 次 数 与 开销 。 但 非 极 大 值 抑制 算法 ， 由 于 边界 处 理 
或 判断 ， 产 生 大 量 的 分 支 ， 分 支 将 会 导致 执行 路 径 串 行 执行 ， 条 件 语句 的 执行 总 时 
间 等 于 各 个 分 支 执行 时 间 的 总 和 。 同 时 ， 极 大 值 抑制 算法 几乎 没有 计算 ， 全 为 判断 
分 文 ， 这 为 优化 增加 了 很 大 的 难度 。 

3. 递归 确定 边缘 

NVIDIA TK1 搭载 的 Kepler 架构 的 GPU 是 不 支持 递归 算法 的 。 因 此 ， 需 要 改写 算 
法 ,改写 为 一 个 适用 于 GPU 的 算法 。 改 写 后 的 算法 流程 图 及 部 分 代码 如 图 6-5 所 示 。 



































8 邻 域 有 最 终 边 \\> 否 
缘 点 ? 





标记 中 心 点 为 最 终 





图 6-5 递归 确定 边缘 改写 后 流程 图 
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部 分 代码 : 
dim3thrreads( 16,16) ; 
dim3 blocks( ( width + threads. x — 1) /threads. x, ( height + threads. y — 1) /threads. y) ; 


void * counter _ ptr; 





cudaGetSymbolAdress( &counter _ ptr, mymask) ; 

int count; 

cudaMemepy( &count, counter _ ptr, sizeof( int) , cudaMemcpyDeviceToHost) ; 

while( count = =1) 

| 

cudaMemset( counter _ ptr,0 ,sizeof( int) ) ; 

getEdgePoint _ pertime _ kernel < < < blocks threads > > > (d odata,d _ indata, width, height) ; 
cudaDeviceSynchronize( ) ; 

cudaMemepy( &count, counter _ ptr, sizeof( int) , cudaMemcpyDeviceToHost) ; 


! 
j 











由 代码 可 知 ， 通 过 循环 每 次 判断 全 部 图 像 的 kernel 实现 原来 递归 算法 的 功能 。 
从 开启 的 线程 来 讲 ， 依 旧 是 一 个 线程 处 理 一 个 像素 点 ， 判 断 相 邻 两 个 点 时 会 重复 读 
取 6 个 数据 ， 极 大 地 增加 了 对 global memory 的 访 存 次 数 与 开销 。 同 时 ， 该 算法 每 
次 的 循环 中 ,大 量 的 分 支 导致 不 同 的 像素 点 可 能 会 有 不 同 的 任务 ， 极 大 地 增加 了 算 
法 的 执行 时 间 。 


6.5 ”优化 策略 分 析 


6.5.1 向 量化 访 存 


Canny 算 子 各 个 部 分 都 是 连续 数据 访 存 密集 型 算法 。 提 高 global memory 的 访 存 
效率 ， 可 以 有 效 减少 对 global memory 的 访 存 延 迟 ， 这 对 于 Canny 算 子 性 能 的 提高 
有 着 至 关 重 要 的 作用 。 

由 于 数据 的 连续 访 存 ， 可 以 通过 回 量 化 提高 global memory 的 访 存 效率 。 一 方 
面 ， 可 以 充分 利用 数据 的 重用 ， 比 如 在 blur 滤波 算法 中 ， 相 邻 点 的 计算 可 以 重用 6 
个 数据 ， 极 大 地 减少 了 访问 global memory 的 访 存 次 数 ， 从 而 提高 了 global memory 
的 访 存 效率 。 男 一 方面 ， 可 以 充分 利用 Kepler 架构 的 GPU 的 cache line。 本 文 全 部 
采用 向 量 长 度 为 4 的 向 量 。 

cache line 大 小 为 128B， 并 且 对 齐 在 device memory 地 址 的 128B 的 内 存 片 断 上 。 
A Fermi 架构 以 来 ，GPU 开始 引入 一 级 缓存 (L1) 与 二 级 缓存 (L2) ， 每 次 访问 绥 
存 ， 取 来 的 最 少数 据 量 就 是 一 个 cache line ， 即 128B。 对 于 NVIDIA Kepler 架构 的 
GPU 而 言 ， 对 于 global memory 的 访问 仅仅 会 被 缓存 在 L2 中 (LI 用 于 缓存 local 
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memory 的 访问 ) 。 同 时 ，Kepler 架构 的 GPU 的 cache line 是 由 4 个 32B 的 内 存 片 断 
组 成 的 。 如 果 warp 的 每 个 线程 访问 相 邻 的 4B 的 数据 ， 并 且 warp 对 齐 在 128B 的 内 
存 片 断 上 ， 那 么 可 以 实现 global memory 合并 访 存 机 制 如 第 5 EE 5-2 所 示 。 如 果 
warp 与 内 存 映 射 没有 对 齐 ， 访 存 机 制 如 第 5 草图 5-3 所 示 。 因 此 ， 实 现 warp 与 内 
存 映 射 的 对 齐 和 充分 利用 cache line 可 以 有 效 提高 global memory 的 访 存 效率 。 

以 灰 度 化 算法 为 例 ， 原 来 每 个 线程 需要 处 理 原 图 像 的 1 个 像素 点 (3 个 数据 ) ， 
每 个 warp 处 理 32 x3 个 数据 ， 而 每 个 warp 访 存 的 基本 单位 是 128B ， 无 法 合并 访 
存 。 经 过 向 量 长 度 为 4 的 向 量 后 ， 每 个 warp 访 存 3 x128B， 可 以 将 warp 内 的 访 存 
请 求 合 并 成 3 次 访 存 请 求 ; 从 而 提高 global memory 的 访 存 效率 。 

在 NVIDIA GPU E, Xit CUDA Runtime API 分 配 内 存 (如 cudaMalloe () PK 
数 ) ， 就 已 经 保证 内 存 至 少 对 齐 在 236B8。 因 此 ， 在 分 配 线程 时 选择 合适 的 block 
size， 在 warp 对 齐 于 cache line 时 是 有 利于 内 存 的 访 存 的 。 例 如 ，block size 是 warp 
size 的 整数 倍 。 如 果 block size 不 是 warp size 的 整数 倍 ， 可 能 会 出 现 一 块 内 存 同时 
被 第 二 个 block 、 第 三 个 block 甚至 后 面 的 block 访问 的 问题 。 


6.5.2 数据 本 地 化 


数据 本 地 化 是 指 将 数据 从 片 外 内 存 (local memory, global memory, constant 
memory 和 texture memory) 转移 到 片 内 (register, shared memory), ， 并 实现 数据 共 
享 ， 以 此 来 减少 片 外 内 存 访 存 的 依赖 。 因 此 ， 可 以 通过 数据 本 地 化 ,减少 对 global 
memory 的 访 存 依赖 ; 从 而 提高 算法 性 能 。 

在 NVIDIA GPU 中 提供 了 shared memory 机 制 、register 机 制 与 cache 机 制 。 
cache 机 制 可 以 通过 ” ldg () 功能 实现 对 整个 kernel 的 生命 周期 只 读 的 数据 缓存 
在 只 读 的 cache 中 ， 从 而 提高 访 存 效率 。 但 是 ， 只 读数 据 的 缓存 功能 仅仅 支持 计算 
能 力 在 3.5 及 以 上 的 设备 (NVIDIA TKI GPU 计算 能 力 是 3. 2 ) shared memory 可 
以 被 同一 block 的 线程 读 写 ， 同 时 具有 高 速 访 存 的 特点 ， 可 以 较 好 地 提高 算法 性 
能 。 但 不 易 掌控 ， 因 为 需要 注意 避免 出 现 bank conflict, block 间 的 同步 问题 等 问 
题 。 register 是 线程 私有 的 ， 同 时 它 是 CPU 的 存储 空间 中 最 快 的 ， 读 取 它 几乎 不 耗 
费时 间 。 但 是 ，register 数量 有 限 ， 合 理 地 使 用 和 分 配 register 是 至 关 重 要 的 ， 能 
极 大 地 提高 算法 性 能 。 以 Kepler GPU 为 例 ， 每 个 SM 有 64K 个 32 位 寄存 器 ， 如 果 
每 个 block 有 1024 个 线程 ， 那 么 每 个 线程 最 多 使 用 64 个 寄存 器 。 但 是 如 果 将 block 
大 小 改 为 512， 则 最 多 可 以 使 用 128 个 寄存 器 。 

根据 算法 的 不 同 特点 选择 合适 的 数据 本 地 化 方式 ， 同 时 充分 利用 底层 硬件 资 
源 ， 以 达到 提高 算法 性 能 的 目的 。 以 register 为 例 ， 每 个 线程 的 register 数量 有 限 ， 
当 register 耗 尽 时 ， 数据 将 会 被 洲 出 到 local memory。 如 果 每 个 线程 中 使 用 过 多 的 
register 或 者 声明 大 型 结构 体 或 数组 ， 或 编译 器 无 法 确定 数组 大 小 ， 数 据 都 会 被 分 
配 到 local memory， 我 们 应 该 极力 避免 这 些 。 本 文 测试 了 shared memory 机 制 数据 本 
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地 化 ， 性 能 相对 于 初始 版 本 反而 下 降 ， 因 此 后 面 一 起 使 用 采用 register 机 制 数据 本 
地 化 与 向 量化 。 

以 blur 滤波 算法 为 例 ， 由 于 计算 相 邻 点 滤波 后 的 值 有 6 个 数据 重用 ， 采 用 reg- 
ister 机 制 数据 本 地 化 将 数据 加 载 到 片上 内 存 后 ， 可 以 减少 片 外 访 存 依赖 的 同时 ， 也 
可 以 对 数据 进行 多 次 操作 。 


6. 5.3 条件 分 支 优 化 


分 支 指令 (if, switch, do, for, while) 会 造成 同一 warp 的 线程 执行 路 径 不 
同 ， 不 同 的 执行 路 径 的 指令 会 被 串 行 化 ， 这 样 将 会 极 大 地 降低 性 能 。 这 里 主要 有 以 
下 几 点 优化 方法 : 

口 尽量 避免 warp 内 的 条 件 分 支 。 避 免 同 一 warp 内 的 条 件 分 支 ， 是 最 优 的 优化 
方法 。 但 往往 在 实际 算法 中 ， 分 支 是 不 可 避免 ， 如 图 像 滤波 算法 ， 由 于 边界 的 处 
理 ， 必 然 会 产生 分 文 。 

O 如 果 无 法 避免 分 支 ， 则 要 尽量 避免 warp 内 的 分 支 中 出 现 访 存 操作 。 主 要 解 
决 方法 是 通过 填充 数据 ， 但 填充 数据 也 会 耗费 时 间 ， 多 个 算法 在 一 起 的 时 候 ， 一般 
在 上 一 个 算法 kernel 中 填充 数据 ， 可 以 避免 device 与 host 端的 数据 传输 。 

口 条 件 指 令 优化 。 用 ?: RE 让 …else… 语 句 ， 如 图 6-6 所 示 ， 这 也 是 本 文 所 采 
用 的 方法 。 

if(A>255) 


A=255; F 
else mn A=A>255?255:A; 


A=A; 





























if(A>B){ 
sum = C+width;} int s=A>B ? width : 0; 


else{ sum = C+s; 





sum = C;} 


图 6-6 条 件 指 令 优化 例 程 


6.6 Canny 边缘 检测 算法 优化 过 程 与 实验 结果 分 析 


本 章 实验 运行 的 平台 为 NVIDIA Tegra K1, GPU 是 由 NVIDIA Tegra K1 搭载 的 
Kepler 架构 GPU, CPU 是 四 核 ARM® Cortex™ - A15 CPU, NVIDIA Tegra K1 软件 环 
境 是 CUDA 6. 0 和 OpenCV3. 0, 

本 文采 用 比较 普遍 的 计算 方法 ， 即 有 效 带 宽 等 于 传输 数据 大 小 与 kernel 执行 时 
间 之 比 。 其 中 传输 数据 大 小 包括 传 出 数据 大 小 与 传人 数据 大 小 。 具 体 公 式 如 下 : 
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it, 


effective bandwidth = 





ker nel 


AP, Teme A kernel 执行 时 间 ; 5; 与 S, 分 别 为 传人 数据 大 小 与 传 出 数据 大 小 。 在 
该 NVIDIA Tegra K1 异 构 平台 ， 实 测 GPU 计算 峰值 带宽 为 10. 9523GB/s。 

下 面 以 4096 x 4096 数据 规模 的 CV 8UC3 的 lena. png 图 像 为 例 ， 逐 步 分 析 各 
部 分 算法 的 性 能 优化 效果 。 


6.6.1 灰 度 化 算法 


在 NVIDIA Tegra Kl 异 构 平 台 上 ， 通 过 向 量化 对 灰 度 化 算法 进行 优化 。 性 能 如 
图 6-7 (SLR) 所 示 ， 从 图 中 可 以 看 出 ， 通 过 shared memory 的 向 量化 并 没有 提 
升 性 能 ， 性 能 反而 下 降 。 所 以 ， 后 面 直 接 选用 了 register 的 向 量化 减少 对 片 外 访 存 
的 依赖 。 选 择 register 的 向 量化 主要 有 两 点 原因 : 

O register 的 访 存 速率 是 要 快 于 shared memory 的 。 

O 虽然 register 数量 有 限 ， 但 在 Kepler GPU 上 ， 每 个 SM 有 64K 个 32 位 regis- 
ter, 这 足以 满足 绝 大 多 数 的 图 像 处 理 。 

通过 向 量化 后 ， 有 效 带 宽 达 到 10. 2843GB/s， 相 对 于 CPU 实现 14. 9524 倍 的 性 
能 加 速 比 。 在 6.4. 1 小 节 中 , 已 前 明 每 次 访问 缓存 ， 取 来 的 最 少数 据 量 就 是 一 个 
cache line ， 即 128B。 在 灰 度 化 算法 中 ， 每 个 warp 正好 访问 3 个 cache line, 存储 1 
个 cache line。 因 此 ， 可 以 实现 对 global memory 访 存 效率 有 质 的 提升 ， 从 而 实现 对 
灰 度 化 算法 性 能 的 极 大 提升 。 
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图 6-7 ” 灰 度 化 算法 性 能 图 
6. 6.2 滤波 及 计算 梯度 幅 值 算法 


从 上 一 节 分 析 可 以 看 出 ， 数 据 本 地 化 与 向 量化 对 算法 的 访 存 优化 有 很 大 提升 。 
在 blur 算法 优化 中 ， 也 采用 数据 本 地 化 与 向 量化 进行 优化 。 上 一 节 已 经 做 了 详尽 
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如 图 6-8 ( 见 彩 插 ) 所 示 ， 在 使 用 向 量化 后 有 效 带宽 为 3. 1964GB/s。 但 有 效 
带宽 并 没有 像 灰 度 化 算法 一 样 大 幅度 提升 。 主 要 原因 有 三 点 : 

O 在 滤波 算法 中 ， 由 于 计算 某 点 时 需要 读 取 相 邻 点 的 值 ， 这 导致 一 个 warp 访 
存 的 数据 大 小 不 是 cache line 的 整数 倍 。 

口 由 于 图 像 边 界 的 处 理 ， 出 现 条 件 分 支 ， 导 致 不 同 的 执行 路 径 的 指令 会 被 串 行 
化 ， 从 而 导致 性 能 下 降 。 

O 由 于 除数 而 产生 了 精度 差 ， 为 了 和 OpenCV 的 blur () 函数 的 结果 完全 一 
致 ， 添 加 浮 点 运算 以 提高 精度 ， 同 时 产生 大 量 浮 点 运算 ， 从 而 使 性 能 有 所 下 降 ， 实 
测 下 降 大 约 1. 1GB/s。 

如 6.4.3 小节 所 述 ， 可 以 通过 指令 ? : 对 条 件 分 支 进行 替 换 ， 可 以 实现 条 件 分 
支 优化 。 最 终 ， 有 效 带 宽 最 高 达 3. 3917GB/s， 相 对 于 CPU 实现 了 42. 0285 倍 的 性 
能 加 速 比 。 














4 50 
T 40 
ma 3 
G 30 ` 
z : 
= 20 Xr 
x tt 
w! 10 a 
0 0 
512x512 1024x1024 2048x2048 4096x4096 
图 像 规模 
EN OpenCV CPU Game GPU 补 始 实现 
加 数据 本 地 化 (registen+ 向 此 化 me 条 件 分 支 优化 
— 最 终 加 | 速 比 





6-8 blur 算法 性 能 民 


在 6.3 节 中 ， 提 到 在 Canny 算 子 中 ,计算 梯度 幅 值 算法 的 本 质 也 是 一 种 滤波 算 
法 ， 即 Sobel 滤波 器 ， 只 不 过 在 经 过 x 方向 和 y 方向 上 的 求 导 (两 次 滤波 ) 之 后 做 
相 加 运算 。 那 么 计算 梯度 值 算法 的 优化 策略 与 blur 算法 优化 策略 一 样 。 优 化 后 ， 
如 图 6-9 所 示 ， 有 效 带 宽 达 到 了 6.6863GB/s， 相 对 于 GPU 初始 实现 了 2. 0279 HH 
性 能 加 速 比 。 同 样 ， 这 里 的 有 效 带 宽 无 论 是 优化 前 还 是 优化 后 都 明显 高 于 前 面 的 
blur 算法 。 其 主要 原因 有 两 点 : 

口 相对 而 言 ， 计 算 梯度 值 算法 的 计算 量 远 大 于 blur 算法 ， 这 充分 利用 了 GPU 
适合 计算 密集 型 任务 的 特点 。 

口 访 存 密度 同样 大 于 blur 算法 ， 向 量化 与 数据 本 地 化 对 于 性 能 的 提升 十 分 明 
显 。 因 此 ， 可 以 实现 更 好 的 性 能 。 
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图 6-9 计算 梯度 算法 性 能 医 


6.6.3 非 极 大 值 抑 制 算法 


该 算法 几乎 没有 计算 ， 基 本 上 都 是 判断 ， 同 时 也 是 访 存 密集 型 算法 。 因 此 ， 与 
前 面 优化 策略 相似 ， 只 是 这 里 条 件 分 支 优化 所 占 比 例 更 大 。 

如 图 6-10 〈 见 彩 插 ) 所 示 ， 如 果 将 所 有 分 支 全 部 优化 再 向 量化 〈 条 件 分 支 全 
部 蔡 换 与 数据 本 地 化 (register) + 向 量化 ) ， 性 能 相对 于 GPU 初始 实现 随 着 数据 量 
的 增 大 而 下 降 得 更 多 。 其 主要 原因 在 于 : 全 部 替换 分 支 以 后 ， 无 论 是 否 满足 阅 值 的 
条 件 都 会 访 存 该 点 的 x 方向 与 y 方 向 的 导数 值 ， 这 极 大 增加 了 对 片 外 访 存 的 访 存 与 
依赖 。 虽然 这 样 会 造成 指令 串 行 化 ,但 是 从 blur 算法 的 优化 可 以 看 出 ， 条 件 分 支 
的 替换 对 于 算法 的 影响 小 于 片 外 访 存 对 算法 的 影响 。 而 且 边 缘 点 在 一 个 图 像 中 一 般 
占 的 比例 不 高 ， 因 此 随 着 数据 规模 的 增加 ， 相 对 而 言 对 片 外 的 访 存 的 比例 越 小 ,性 
能 提升 越 高 。 
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因此 ， 后 面 采 用 条 件 分 支部 分 替换 (不 替换 对 于 阔 值 的 判断 ) ， 再 数据 本 地 化 
(register) 与 向 量化 ， 从 图 6-10 可 以 看 出 最 终 有 效 带 宽 达 到 了 7.6674GB/s， 相 对 
于 GPU 初始 实现 了 1. 5868 倍 的 性 能 加 速 比 。 


6.6.4 递归 确定 边 力 缘 算 法 


如 6.3 节 所 述 ， 将 不 适合 GPU 的 递归 算法 改 为 循环 某 个 kernel 的 算法 。 同 时 ， 
该 算法 必定 会 访 存 整个 数据 ， 因 此 与 6.5.1 小 节 和 6. 5.2 小 节 一 样 通过 数据 本 地 
化 、 向 量化 和 条 件 分 支 优化 算法 。 如 图 6-11 所 示 ， 优 化 后 整个 算法 有 效 带宽 达到 
了 3. 6955GB/s， 相 对 于 GPU 初始 实现 了 118. 8263 倍 的 性 能 加 速 比 。 其 实 ， 如 果 算 
法 循环 次 kernel， 那 么 对 于 kernel Wa 118. 826/k 倍 的 性 能 加 速 比 。 同 时 ， 
每 次 循环 后 满足 边缘 点 的 点 越 来 越 少 ,活动 的 thread 、 或 少 ， 这 就 可 能 造成 
thread 之 间 的 严重 负载 不 均衡 ， 从 而 导致 性 能 的 下 降 。 也 解释 了 在 大 数据 规模 
下 ， 性 能 反而 出 现下 降 的 情况 。 
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图 6-11 递归 算法 性 能 医 


6.6.5 Canny 及 边缘 检测 算法 


不 包括 灰 度 化 和 滤波 的 情况 下 ， 如 图 6-12 (ILE) 所 示 ，OpenCV _ CPU 
Canny 耗 时 412. 9375ms， 同 时 OpenCV CUDA Canny 也 耗 时 256. 3164ms, 而 本 文 
所 移植 与 优化 后 的 My _ CUDA _ Canny 仅仅 耗 时 34.7043ms， 相 对 于 OpenCV _ CPU _ 
Canny 实现 了 11. 8987 倍 的 性 能 加 速 比 。 这 充分 体现 了 该 异 构 平台 GPU 的 并 行 计算 
的 优势 ， 尤 其 是 大 规模 并 行 处 理 。 然 而 OpenCV CUDA _ Canny 性 能 较 低 ， 其 主要 
原因 在 于 : 它 选择 了 texture memory， 该 内 存 主 要 适用 于 对 大 量 数据 的 随机 访问 和 
非 对 齐 访问 。 但 是 global memory 性 能 提升 空间 相对 更 大 ， 若 合理 使 用 global 
memory 可 以 实现 合并 访问 ， 有 效 提高 算法 性 能 ， 例 如 6.4.1 小 节 中 的 cache line 
机 制 。 


最 终 加 速 比 
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图 6-12 CPU 与 GPU 版 本 Canny 算 子 性 能 对 比 图 


对 于 整个 Canny 边缘 检测 算法 ， 如 图 6-13 所 示 ， 对 于 整个 边缘 检测 算法 ， 在 
512 x512 图 像 数 据 规模 下 实现 了 13.2 倍 的 性 能 加 速 比 。 在 4096 x 4096 图 像 数 据 规 
模 下 My _ CUDA _ DetectedEdge 仅仅 耗 时 49. 9948ms， 而 OpenCV _ CPU _ Detected- 
Edge 耗 时 890. 7573ms, My CUDA DetectedEdge 相对 于 OpenCV CPU _ Detected- 
Edge 实现 了 17. 8169 倍 的 性 能 加 速 比 。 
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图 6-13 CPU 与 GPU 版 本 Canny 边缘 检测 性 能 对 比 图 


通过 在 NVIDIA Tegra K1 异 构 计 算 平 台 上 的 移植 与 精细 调 优 ， 相 对 于 OpenCV _ 
CPU Canny 实现 了 13.2 ~ 17. 8 倍 的 性 能 加 速 比 ， 最 终 实现 了 高 性 能 的 Canny 边缘 
检测 算法 。512 x125 数据 规模 图 像 的 边缘 检测 效果 如 图 6-14 (ILEI) 所 示 。 

从 整个 边缘 检测 算法 的 异 构 计算 平台 移植 与 精细 调 优 可 以 看 出 ， 随 着 图 像 数 据 
规模 增 大 ， 人 性 能 普遍 都 有 所 增加 。 这 符合 GPU 并 行 计算 的 特点 。 因 此 ，GPU 适合 
大 规模 数据 的 并 行 处 理 。 
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aie i 四 边缘 图 








图 6-14 高 性 能 Canny 边缘 检测 效果 图 








6.7 本 章 小 结 


随 着 GPU 的 高 速 发 展 ，GPU 的 应 用 越 来 越 广泛 ，GPU 并 行 计算 的 优势 与 日 俱 
增 。 同 时 ， 对 于 并 行 计算 的 性 能 与 优化 要 求 越 来 越 高 。 本 章 主要 以 Canny 边缘 检测 
算法 为 例 ， 研 究 图 像 边缘 检测 算法 在 NVIDIA Tegra K1 异 构 计 算 平台 上 性 能 优化 ， 
结合 算法 特性 和 底层 硬件 架构 特征 ， 从 global memory 的 访 存 、 数 据 本 地 化 以 及 条 
件 分 支 优化 三 个 方面 进行 精细 调 优 。 最 终 实验 结果 表明 ， 本 章 实 现 的 基于 CUDA 
的 Canny 边缘 检测 算法 相对 于 OpenCV3.0 CPU 版 本 的 Canny 边缘 检测 算法 的 性 能 
在 不 同 图 像 数 据 规模 下 达到 了 13. 2 ~ 17. 8 倍 的 性 能 加 速 比 ， 大 大 提高 了 该 算法 的 
性 能 ， 使 其 具有 较 高 的 工程 应 用 价值 。 同 时 ， 为 其 他 的 图 像 边缘 检测 算法 或 图 像 算 
法 提供 了 理论 依据 并 极 大 地 提高 了 图 像 边缘 检测 算法 的 工程 应 用 价值 。 本 章 的 主要 
工作 如 下 : 

口 通过 将 Canny 边缘 检测 算法 在 NVIDIA Tegra K1 异 构 计算 平台 上 GPU 精细 调 
优 ， 实 现 了 图 像 高 性 能 的 实时 处 理 。 同 时 ， 为 其 他 图 像 处 理 算法 提供 一 个 高 效 、 可 
靠 的 参考 依据 。 

O 探索 了 NVIDIA Tegra K1 在 图 像 处 理 的 应 用 及 其 GPU 优化 策略 ， 为 NVIDIA 
Tegra K1 在 安防 监控 、 智 能 驾驶 等 工程 领域 应 用 的 可 行 性 提供 了 一 定 的 依据 。 

在 异 构 计 算 平 台 上 ， 本 章 对 图 像 处 理 算法 的 GPU 优化 ， 提 出 以 下 几 点 优化 
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建议 : 

口 对 于 大 规模 的 计算 密集 型 任务 ， 可 以 通过 GPU 的 并 行 计 算 较 好 地 提升 算法 

性 能 。 同 时 ， 可 以 通过 实现 异 构 平 台 GPU 与 CPU 的 协同 工作 ， 提 升 整体 的 性 能 。 

口 片 外 访 存 的 优化 对 于 整个 算法 的 提升 有 着 举足轻重 的 地 位 。 因 此 ， 可 采用 向 
量化 、 数 据 本 地 化 和 精细 调 优等 方法 提高 片 外 访 存 效率 。 

口 针对 warp 内 线程 负载 不 均衡 问题 ， 可 通过 条 件 分 支 指令 优化 降低 负载 不 均 
衡 带 来 的 影响 。 

O 为 了 实现 线程 与 底层 硬件 高 效 映 射 ， 需 要 考虑 硬件 架构 特性 与 图 像 处 理 算法 
的 特性 ， 以 及 通过 若干 优化 策略 实现 高 性 能 算法 。 
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7.1 引言 


Viola - Jones 人 脸 检 测算 法 由 Paul Viola 和 Michael Jones 于 2001 年 提出 ， 是 最 
为 成 功 、 并 且 能 在 一 定 程度 上 满足 实时 要 求 的 可 实用 人 脸 检 测算 法 ， 并 在 执法 监 
控 、 安 防 系统 和 娱乐 等 领域 有 着 广泛 应 用 。 然 而 ， 随 着 该 算法 所 在 领域 需要 同时 处 
理 的 数据 规模 的 不 断 扩大 以 及 图 片 分 辨 率 的 不 断 提 高 ， 现 有 算法 性 能 已 经 越 来 越 无 
法 满足 日 益 增 长 的 交互 性 与 实时 性 要 求 ， 提 高 该 算法 性 能 的 需求 日 益 迫 切 。 与 此 同 
时 ， 随 着 CPU 通用 计算 的 发 展 ， 特 别 是 GPU 计算 能 力 与 可 编程 性 不 断 增强 ，GPU 
受到 了 越 来 越 多 应 用 开发 人 员 的 青睐 ,利用 GPU 计算 平台 实现 对 应 用 程序 的 加 速 
已 成 为 提高 程序 性 能 的 主要 模式 。 使 用 GPU 计算 平台 提升 人 脸 检 测算 法 性 能 ， 以 
满足 日 益 增 长 的 实时 性 要 求 已 经 成 为 研究 热点 。 

近年 来 ， 关 于 Viola - Jones 人 脸 检 测算 法 的 GPU 移植 和 优化 已 有 许多 工作 ， 代 
表 性 的 工作 主要 有 : David 通过 优化 图 像 积分 图 算法 在 CPU 上 的 性 能 来 提高 人 脸 检 
测算 法 的 整体 性 能 ， 但 是 对 人 脸 检 测 部 分 在 GPU 上 的 实现 和 优化 工作 较 少 ， 更 没 
有 指出 如 何 解决 算法 中 的 负载 不 平衡 问题 导致 的 性 能 瓶颈 。Kong 通过 使 用 share - 
memory 存储 待 检测 窗口 ， 通 过 数据 本 地 化 减 小 对 访 存 带宽 的 依赖 ,但 其 主要 工作 
集中 在 检测 窗口 的 并 行 处 理 上 ， 并 没有 对 算法 并 行 性 进行 充分 挖掘 ， 更 没有 解决 算 
法 中 的 负载 不 平衡 问题 导致 的 性 能 瓶颈 。Sharma 将 Viola - Jones 人 脸 检测 算法 移植 
到 GPU， 通 过 建立 图 像 金字 塔 机 制 实现 对 不 同 大 小 的 缩放 图 像 的 统一 处 理 ， 从 而 
在 一 定 程度 上 缓解 了 图 像 间 负 载 不 均衡 的 问题 。 但 对 于 Thread 级 和 work - group 级 
的 负载 不 均衡 现象 没有 进行 进一步 研究 。Hefenbrock 充分 分 析 了 人 脸 检 测算 法 的 并 
行 性 ， 提 出 该 算法 具有 三 级 并 行 性 ， 特征 值 计算 并 行 、 检 测 窗口 并 行 和 缩放 图 像 并 
行 。 并 通过 对 这 三 级 并 行 的 性 能 优化 ， 使 人 脸 检 测算 法 的 性 能 达到 了 在 FPGA 上 的 
性 能 。 但 在 负载 不 均衡 的 处 理 上 ， 仪 仅 通 过 在 工作 量 大 的 一 级 分 类 带 中 ， 将 负责 每 
个 探测 窗口 的 线程 数目 提高 两 倍 的 方法 来 解决 。 这 种 方法 不 仅 简 单 粗 肾 ， 而 且 非 党 
低 效 ， 只 能 在 较 低 的 程度 上 缓解 负载 不 均衡 问题 ， 但 不 能 有 效 解 决 。Jia 认为 层次 
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式 队 列 机 制 是 解决 负载 不 均衡 的 优先 选择 ， 并 构建 了 本 地 和 全 局 两 级 队列 解决 人 脸 
检测 算法 Thread 级 和 work - group 级 负载 不 均衡 问题 。 然 而 该 工作 的 全 局 队列 实现 
较为 简单 ， 没 有 实现 线程 和 数据 的 动态 映射 机 制 ， 导 致 全 局 队列 的 任务 调度 实现 方 
式 不 够 高 效 ， 同 时 也 没有 解决 全 局 队列 的 高 效 访问 的 问题 。 

总 之 ,虽然 上 述 工 作对 Viola - Jones 人 脸 检测 算法 的 GPU 移植 取得 了 很 大 的 进 
展 ， 但 在 并 行 性 发 掘 以 及 负载 不 均衡 导致 的 性 能 瓶颈 的 处 理 上 ， 这 些 工 作 研 究 的 依 
然 不 够 深入 ， 更 没有 给 出 一 个 统一 的 、 有 效 的 解决 方案 。 

与 此 同时 ， 近 年 来 也 有 许多 工作 通过 其 他 算法 的 GPU 移植 ， 提 出 了 克服 GPU 
计算 平台 上 线程 间 负 载 不 均衡 的 方法 和 策略 。 如 : Tzeng 通过 光纤 追踪 算法 在 CPU 
上 的 移植 和 优化 ， 构 建 了 非 规则 算法 在 GPU 实现 中 的 作业 管理 机 制 ， 并 提出 有 效 
的 内 存 管理 和 动态 调度 是 负载 不 均衡 应 用 在 GPU 上 达到 高 性 能 的 关键 因素 。Merrill 
和 Aila 根据 以 上 方法 ,分 别 完成 了 光线 追踪 和 广度 优先 图 遍历 算法 在 GPU 上 的 实 
现 和 优化 ， 并 取得 了 很 好 的 加 速 比 。Rupesh 等 通过 图 算法 在 众 核 计算 平台 上 的 实 
现 和 优化 ， 根 据 其 算法 特性 ， 得 出 在 众 核 编程 环境 下 ，Topology - driven 比 Data - 
driven 更 能 降低 负载 不 均衡 ， 从 而 会 大 幅 提 升 程序 性 能 的 结论 。Cederman 和 Chat- 
terjee 通过 将 改进 的 任务 窃取 算法 应 用 到 全 局 队列 中 ， 以 动态 任务 调度 的 方式 大 大 
缓解 了 work - group 间 负 载 不 均衡 现象 ， 从 而 获得 较 高 的 性 能 加 速 ， 但 该 方法 实现 
过 于 复杂 。Yan 通过 引进 邻接 同步 的 定义 和 算法 ， 通 过 消除 全 局 同步 以 及 降低 线程 
间 的 任务 依赖 达到 解决 负载 不 均衡 的 目的 ， 从 而 提高 程序 性 能 。Burtscher 提出 了 
针对 具有 条 件 分 支 和 访 存 不 规则 特征 的 算法 在 GPU 上 实现 和 优化 的 方法 和 策略 。 
Rupesh 针对 非 规 则 算法 在 GPU 计算 平台 上 实现 和 优化 中 ， 原 子 操作 可 能 会 导致 的 
性 能 瓶颈 ， 提 出 了 atom -free 编程 方法 ， 有 效 解决 了 原子 操作 导致 的 性 能 瓶颈 。 虽 
然 ， 这 些 工作 针对 负载 不 均衡 算法 在 GPU 上 的 实现 和 优化 都 提出 了 不 同 的 编程 和 
优化 方法 ， 也 都 取得 了 很 好 的 加 速效 果 ， 但 是 这 些 方法 都 没有 在 Viola - Jones 人 脸 
检测 算法 上 验证 其 有 效 性 。 然 而 ， 这 些 工作 提出 的 方法 和 思想 ， 对 于 Viola - Jones 
人 脸 检 测算 法 的 CPU 移植 具有 很 好 的 借鉴 意义 。 


7.2 人 脸 检 测算 法 





























7.2.1 GPU 架构 


随 着 GPU 通用 计算 应 用 的 推广 及 其 应 用 领域 的 不 断 扩大 ，GPU 架构 的 发 展 非 
稼 迅速 。 主 流 忌 片 厂商 根据 实际 计算 需求 ， 不 断 发 展 自己 的 GPU 架构 来 满足 日 益 
增长 的 市 场 和 性 能 需求 。NVIDIA 已 经 发 布 了 如 Fermi, Kepler 和 Maxwell 以 及 Pac- 
all 架构 的 GPU, AMD 也 发 布 了 Cypress, Cayman, GCN 架构 的 GPU。 这 些 GPU 都 
具有 不 同 的 架构 特点 ， 对 应 的 优化 策略 也 有 差异 。 这 种 GPU 架构 的 日 益 多 样 性 ， 
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对 算法 移植 特别 是 性 能 移植 提出 了 新 的 挑战 。 

幸运 的 是 ， 虽 然 不 同 CPU 架构 在 优化 方法 选择 以 及 优化 细节 上 会 有 不 同 ， 但 
是 从 整体 上 看 ，GPU 架构 又 具有 很 好 的 统一 性 ， 即 都 是 大 规模 细 粒 度 并 行 处 理 器 ， 
且 具 有 层次 式 的 架构 特点 ， 这 主要 体现 在 四 个 方面 : 

GPU 由 多 个 CU (Compute Unit， 计 算 单 元 ) 组 成 ， 
每 个 CU 又 由 多 个 PE ( Processing Unit, 处 理 部 件 ) 组 成 。 

eens 从 只 能 被 一 个 线程 访问 的 私有 内 存 ， 到 能 够 被 work- group 
内 所 有 线程 共享 的 本 地 内 存 ， 再 到 可 被 所 有 线程 访问 的 全 局 内 存 。 

O 在 线程 调度 上 ，GPU 一 般 都 采用 静态 顺序 调度 模式 ， 线 程 和 数据 映射 在 
GPU kernel 启动 之 前 就 已 经 确定 ， 线 程 以 work - group 为 单位 被 硬件 顺序 调度 。 

口 在 编程 方式 上 ， 都 采用 了 Host + Device 的 编程 模式 ， 即 GPU 程序 依然 由 
CPU 端 控制 ，CPU 设 定 开 启 线程 的 数目 后 ， 将 计算 任务 发 送 到 CPU 端 执行 ， 线 程 

组 织 也 都 采用 了 Grid - Block - Thread 的 层次 式 组 织 方式 。GPU 这 种 统一 的 架构 特 

点 和 线程 组 织 调度 方式 ， 使 性 能 移植 成 为 可 能 。Jia 给 出 了 在 不 同 CPU 计算 平台 上 
优化 策略 的 选择 及 应 用 。 


7.2.2 Viola - Jones 人 脸 检 测算 法 


Viola — Jones 人 脸 检测 算法 由 剑桥 大 学 的 Paul Viola 和 Michael Jones 于 2001 年 最 
早 提 出 ， 是 最 为 成 功 、 并 且 能 满足 实时 要 求 的 可 实用 人 脸 检 测算 法 。Viola - Jones 人 
脸 检 测算 法 使 用 Haar 特征 值 进行 目标 检测 : 通过 Adaboost FPS +E MAK aE a, A 
接 对 图 像 的 一 小 块 区 域 进 行 特征 匹配 ， 从 而 判断 该 区 域内 是 否 有 人 脸 存 在 。 该 算法 包 
括 训练 和 检测 两 部 分 : 训练 部 分 使 用 Adaboost 算法 从 预先 收集 的 正 负 样本 中 提取 特 
征 值 进行 计算 ,最 终生 成 一 个 级 联 分 类 融 。 检 测 部 分 使 用 级 联 分 类 带 ， 通 过 检测 窗口 
的 移动 和 缩放 ， 对 图 像 上 的 人 脸 进行 检测 。 由 于 训练 部 分 可 脱 机 执行 ， 对 实时 要 求 并 
不 高 。 因 此 ， 本 书 只 讨论 算法 的 检测 部 分 在 GPU 上 的 实现 和 优化 。 
如 图 7-1 所 示 ，Viola - Jones 使 用 Haar 特征 值 
计算 特征 。Haar 特征 值 共 使 用 了 三 种 类 型 四 种 形式 
的 特征 模板 ， 每 种 特征 模板 内 包含 黑色 和 白色 两 种 
矩形， 该 模板 的 特征 值 定义 为 白色 和 矩形 像素 和 减 去 


黑色 矩形 像素 和 。 1E 


















































图 7-1 所 示 的 特征 模板 称 为 “特征 原型 ", “ 特 
征 原型 ”在 图 像 窗口 中 平移 伸缩 而 得 到 的 特征 称 为 
“矩形 特征 ”，“ 和 矩形 特征 ”的 值 称 为 “特征 值 "。 
在 检测 过 程 中 ， 特 征 模板 可 以 以 任意 尺寸 放置 在 图 图 7-1 Haar 特征 模板 
像 窗口 上 的 任意 位 置 。 从 而 形成 各 种 形态 ， 每 一 种 形态 称 为 一 个 特征 。 这 样 ， 通 过 
改变 特征 模板 大 小 和 在 图 像 中 的 位 置 ， 可 在 图 像 窗 口中 穷 举 出 海量 特征 。 




















ooo 视频 图 像 处 理 与 性 能 优化 


图 7-2 显示 了 人 脸 检 测 中 的 haar 特征 值 在 样 
本 窗口 中 的 位 置 。 对 于 一 个 24 x24 的 图 像样 本 而 
言 ， 和 矩阵 特征 的 数目 可 达 160000， 这 是 非常 庞大 
的 计算 量 。 而 且 随 着 图 像 尺 寸 的 不 断 增 大 ， 特 征 数 
目 也 会 快速 增长 ， 这 就 对 计算 能 力 提出 了 严峻 挑 ” 语 2 RENEA haar E 
战 。 同 时 如 果 每 次 Haar 特征 值 的 计算 ， 都 要 统计 
和 矩形 中 所 有 像素 的 和 ， 庞 大 的 计算 量 无 疑 会 降低 检测 的 速度 。 为 此 ，Viola 与 Jones 
引入 了 积分 图 作为 输入 图 像 的 一 种 中 间 表 达 形 式 。 在 完成 图 像 的 积分 图 运算 后 ， 通 
过 图 像 积分 图 来 完成 Haar 特征 值 的 计算 。 因 此 ， 积 分 图 生成 算法 的 性 能 对 于 人 脸 
检测 算法 的 性 能 也 至 关 重 要 。 然 而 ， 这 超出 了 本 书 的 讨论 范围 ， 关 于 积分 图 生成 算 
法 的 GPU 移植 ， 已 有 大 量 的 研究 工作 ， 并 且 已 经 非常 成 熟 。 

图 7-3 显示 了 Viola - Jones 人 脸 检 测算 法 的 主要 流程 ，Viola - Jones 人 脸 检 测 
算法 通过 定义 检测 窗口 遍历 整 幅 图 像 ， 使 用 Adaboost 方法 构建 的 级 联 分 类 器 检测 
和 窗口 中 的 人 脸 。 值 得 注意 的 是 ， 通 过 使 用 级 联 分 类 器 可 明显 加 快 检测 速度 。 检 测 流 
程 具体 如 下 : 首先 ， 为 了 检测 出 图 像 中 包含 的 不 同 大 小 的 所 有 人 脸 ， 需 要 按照 一 定 
大 小 的 缩放 因子 缩放 图 像 ， 其 次 ， 使 用 级 联 分 类 器 对 检测 窗口 进行 检测 : 将 检测 窗 
口交 给 第 一 级 分 类 器 ， 如 果 检 测 窗口 检测 为 未 包含 人 脸 ， 则 分 类 器 将 此 检测 窗口 丢 
弃 并 停止 检测 ， 如 果 当 前 探测 窗口 被 判 为 疑似 包含 人 脸 ， 则 进入 下 一 级 分 类 需 继 续 
检测 。 最 后 ， 只 有 通过 所 有 分 类 器 检测 的 窗口 才 被 判定 为 包含 人 脸 。 在 级 联 分 类 器 
中 ， 分 类 器 的 复杂 度 是 逐 层 增加 的 ， 层 数 越 深 ， 检 测 要 求 越 高 ， 与 之 相对 应 的 计算 
量 也 越 来 越 大 。 
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图 7-3 Viola - Jones 人 脸 检 测算 法 


7.3 人 脸 检 测算 法 的 GPU 实现 与 优化 


7.3.1 并 行 性 分 析 
通过 7. 2. 2 小 节 的 算法 介绍 ， 可 以 分 析 得 出 ，Viola - Jones 人 脸 检测 算法 具有 
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良好 的 并 行 性 ， 有 具体 来 说 ， 该 算法 包含 三 级 并 行 性 。 

口 特征 值 级 并 行 : 每 个 特征 值 的 计算 是 相互 独立 的 ， 可 以 并 行 执行 。 

口 窗口 级 并 行 : 每 个 检测 窗口 的 检测 是 相互 独立 的 ， 可 以 并 行 检测 。 

口 图像 级 并 行 : 为 了 检测 大 小 不 同 的 人 脸 ， 需 要 将 图 像 进行 放 缩 ， 对 每 一 幅 缩 
放 图 像 的 检测 也 是 相互 独立 的 ， 可 以 并 行 执行 。 

由 此 可 见 ， 一 方面 Viola - Jones 人 脸 检 测算 法 的 计算 量 非 常 大 ; 但 另 一 方面 ， 
该 算法 又 具备 良好 的 并 行 性 。 这 种 算法 特性 非常 适合 GPU 计算 平台 大 规模 并 行 的 
架构 特点 。 针 对 以 上 分 析 ， 本 书 实 现 了 Viola - Jones 人 脸 检 测算 法 在 GPU 计算 平台 
上 的 Naive 版 本 。 


7.3.2 Naive 实现 与 负载 不 均衡 


Viola - Jones 人 脸 检 测算 法 在 GPU 计算 平台 上 的 Naive 版 本 采用 最 基本 、 最 简 
单 的 并 行 化 策略 ， 即 仅 并 行 化 检测 窗口 的 检测 ， 具 体 为 : 每 次 只 处 理 一 幅 缩 放 
像 ， 在 CPU 端 循 环 启动 OpenCL kernel 以 处 理 所 有 的 缩放 图 像 ，@) 对 于 每 幅 缩放 
像 ， 每 个 线程 负责 一 个 检测 窗口 ， 多 个 检测 窗口 可 进行 并 行 检测 ，@ 使 用 LDS 完 
成 数据 本 地 化 ， 实 现 work - group 内 线程 的 数据 共享 ， 减少 对 访 存 带宽 的 依赖 ; 
在 线程 组 织 上 ,采取 有 和 多少 检 测 窗 口 ， 就 开启 多 少 线程 的 策略 ， 每 个 work - 
group 大 小 为 236， 并 采取 二 维 组织 形 式 : 16 x16。 

然而 ， 与 CPU 版 本 的 性 能 相 比 ，Naive 版 本 性 能 并 没有 提升 ， 反 而 有 所 下 降 。 
这 主要 有 两 方面 的 原因 : 一 是 没有 充分 发 掘 并 行 性 ，Naive 版 本 仅仅 开发 了 三 级 并 
行 性 中 的 一 级 ， 即 检测 窗口 并 行 ; 二 是 在 Naive 实现 版 本 中 ， 线 程 间 存 在 严重 的 负 
载 不 均衡 现象 ， 这 是 GPU 这 种 大 规模 细 粒 度 并行 处 理 器 的 梦 寿 。 这 使 得 GPU 计算 
资源 远 未 得 到 充分 利用 ， 从 而 导致 性 能 的 严重 降低 。 其 中 第 二 个 原因 是 最 主要 、 最 
关键 的 因素 。 

Viola - Jones 人 脸 检 测算 法 的 串 行 实现 中 ， 级 联 分 类 句 之 所 以 能 够 提高 检测 速 
度 ， 是 因为 在 一 般 的 输入 图 像 中 ， 大 部 分 区 域 都 不 包含 人 脸 。 通 过 前 面 的 几 级 简单 
分 类 器 可 直接 滤 去 这 些 区 域 ， 只 对 少量 的 极 可 能 包含 人 脸 的 区 域 使 用 更 为 复杂 的 分 
类 需 进 行 检测 。 在 这 个 检测 过 程 中 ， 随 着 弱 分 类 顺 数 量 的 增加 ， 通 过 Adaboost 构 
建 的 强 分 类 器 的 检测 表现 也 会 不 断 提 高 。 但 这 种 方法 也 导致 了 该 算法 在 GPU 的 实 
现 和 优化 中 ,会 导致 严重 的 负载 不 均衡 现象 ,大 大 限制 了 其 在 CPU 上 的 性 能 。 图 
7-4 说 明了 这 种 负载 不 均衡 现象 的 产生 过 程 。 

如 图 7-4 所 示 ， 假 设 有 9 个 检测 窗口 ， 共 开启 9 个 线程 ， 每 个 线程 负责 一 个 窗 
口 的 检测 。 当 使 用 级 联 分 类 器 进行 检测 时 : 窗口 (0，0) 首先 被 Stage 0 分 类 器 检 
测 为 肯定 不 是 人 脸 而 被 丢弃 ， 在 此 后 的 检测 过 程 中 ， 线 程 (0, 0) 将 一 直 处 于 空 
闲 状态 ， 其 他 线程 继续 工作 ; 接着 在 下 一 级 检测 中 ， 窗 口 (1，1) 被 stage 1 分 类 
器 也 检测 为 不 是 人 脸 ， 因 此 线程 (1, 1) 在 随后 的 检测 中 ， 也 将 处 于 空闲 状态 ; 
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图 7-4 ”线程 间 负 载 不 均衡 现象 


更 为 不 幸 的 是 ， 随 着 检测 的 进行 ， 越 来 越 多 的 窗口 被 检测 为 不 是 人 脸 而 被 丢 奔 ， 也 
就 是 说 越 来 越 多 的 线程 处 于 空闲 状态 ; 直到 最 后 一 个 阶段 ， 只 有 线程 (1, 2) 处 
于 忙碌 状态 ， 而 其 他 线程 都 处 于 空闲 状态 。 更 为 严重 的 是 ， 根 据 级 联 分 类 器 的 定 
义 ， 检 测 越 靠 后 ， 分 类 器 级 数 越 高 ， 相 对 应 的 计算 量 就 越 大 。 因 此 ， 实 际 的 负载 不 
均衡 现象 远 比 图 7-4 描述 的 严重 得 多 。 

由 此 可 见 ， 虽 然 级 联 分 类 吉方 法 在 串 行 算法 中 可 大 大 减少 工作 量 ， 提 高 检测 速 
E. BÆ GPU 实现 中 却 会 导致 严重 的 线程 间 负 载 不 均衡 现象 ， 成 为 性 能 瓶颈 ， 严 
重 制约 算法 性 能 。 特 别 是 在 大 多 数 图 像 中 ， 人 脸 区 域 可 能 只 占 很 少 一 部 分 。 如 果 对 
该 算法 的 GPU 实现 不 进行 改进 ， 这 也 就 意味 着 在 实际 GPU 程序 中 ， 只 有 一 小 部 分 
线程 会 一 直 处 于 工作 状态 ， 直 到 检测 结束 。 而 绝 大 部 分 线程 可 能 很 快 就 退出 并 在 
CPU 端 等 竺 全 局 同步 了 。 这 显然 是 我 们 不 愿意 看 到 的 结 

此 外 ， 为 了 检测 图 像 中 大 小 不 同 的 人 脸 ， 需 要 将 图 像 按照 一 定 的 缩放 因子 进行 
放 缩 。Naive 实现 在 CPU 端 循环 处 理 这 些 缩放 图 像 。 这 样 处 理 不 仅 增加 了 GPU kernel 
的 启动 和 同步 开销 ， 而 且 当 缩放 图 像 过 小 时 (如 只 有 几 个 甚至 一 个 检测 窗口 时 ) 
而 不 能 充分 利用 GPU 的 计算 资源 时 ， 就 不 能 充分 利用 GPU 强大 的 计算 能 力 ， 造 成 
资源 浪费 。 

因此 ， 在 实际 图 片 的 人 脸 检 测 中 ，Viola - Jones 人 脸 检 测算 法 存在 三 级 负载 不 
均衡 : 

O thread 级 。 线 程 负责 的 检测 窗口 中 的 图 像 越 接近 于 人 脸 ， 该 线程 的 工作 量 越 
K; 否则 ， 工 作 量 越 小 。 
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O work - group 级 。 当 一 个 work - group 处 理 的 图 像 区 域 包含 人 脸 时 ， 工 作 量 巨 
大 ; 否则 ， 工 作 量 可 能 会 很 小 。 

口 图 像 级 。 当 图 像 不 断 放 缩 而 不 能 充分 利用 GPU 计算 资源 时 ， 就 会 导致 图 像 
级 的 负载 不 均衡 。 

本 书 下 面 的 内 容 将 着 重 讨论 如 何 解决 这 些 负载 不 均衡 的 问题 。 幸 运 的 是 ， 在 解 
决 负载 不 均衡 问题 的 同时 ， 并 行 性 没有 充分 发 掘 的 问题 也 一 并 得 到 了 解决 。 


7.3.3 GPU 优化 


如 上 上 节 分 析 ，Viola - Jones 人 脸 检 测算 法 虽然 具有 很 好 的 并 行 性 ， 但 在 GPU 移 
植 中 存在 负载 不 均衡 的 非 规则 特性 。 这 种 非 规则 特性 是 CPU 计算 平台 的 梦 履 ， 一 
方面 ，GPU 具有 大 规模 细 粒 度 并 行 的 架构 特点 ， 负 载 不 均衡 会 导致 CPU 计算 资源 
利用 率 的 降低 ; 另 一 方面 ， 现 代 GPU 的 线程 调度 采用 静态 调度 策略 ， 如 不 进行 针 
对 性 优化 ， 无 法 自动 处 理 负载 不 均衡 问题 。 更 为 严重 的 是 ， 传 统 的 CPU 编程 和 优 
化 方法 并 没有 涉及 对 负载 不 均衡 现象 的 处 理 和 优化 。 因 此 ， 负 载 不 均衡 现象 将 会 成 
为 人 脸 检 测算 法 在 GPU 计算 平台 上 的 性 能 瓶颈 ， 仅 仅 使 用 传统 GPU 编程 和 优化 方 
法 〈 即 计算 、 访 存 和 数据 本 地 化 优化 ) ， 无 法 克服 该 瓶颈 ， 将 严重 制约 算法 性 能 。 
对 此 ， 本 书 将 针对 Viola - Jones 人 脸 检 测算 法 的 特性 ， 结 合 GPU 的 架构 特征 ， 提 出 
一 种 并 行 优化 框架 ， 以 突破 由 于 负载 不 均衡 导致 的 性 能 瓶 贷 。 图 7-5 显示 了 该 优化 
框架 的 整体 架构 。 
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图 7-5 并 行 优化 框架 


并 行 优化 框架 主要 由 六 部 分 组 成 : 粗 粒度 并 行 、Persistent Thread 、Uberkernel、 





147 


ooo 视频 图 像 处 理 与 性 能 优化 


线程 与 数据 的 动态 映射 、 全 局 及 本 地 队列 。 这 六 个 组 成 部 分 相互 协同 ， 共 同 解决 由 
于 负载 不 均衡 导致 的 性 能 瓶颈 问题 : 

口 Uberkernel。 将 执行 人 脸 检 测算 法 主要 计算 部 分 的 多 个 kernel 合并 为 一 个 
Uberkernel， 统 一 负责 人 脸 检测 。 这 样 一 方面 可 以 减少 kernel 的 启动 和 全 局 同步 开 
销 ， 另 一 方面 也 可 解决 图 像 级 负载 不 均衡 问题 。 

O Persistent Thread 与 粗 粒 度 并 行 。Persistent Thread 和 粗 粒 度 并 行 共同 定义 了 
Uberkernel 的 线程 组 织 和 运行 方式 ， 作 为 解决 线程 间 负 载 不 均衡 问题 的 基础 。 粗 粒 
度 并 行 通过 重新 定义 线程 组 织 方 式 ， 提 升 GPU 并 行 粒度 : 由 thread 变 为 warp 
(wavefront, AMD GPU ) ， 在 一 定 程度 上 缓和 负载 不 均衡 对 性 能 的 影响 。Persistent 
Thread 重新 定义 GPU thread 的 运行 方式 ,使 thread 的 生命 周期 和 OpenCL kernel 的 
生命 周期 相同 ， 可 循环 处 理 多 个 任务 。 

口 动态 映射 与 全 局 队列 。 在 线程 和 任务 的 映射 上 ， 本 书 不 采用 传统 CPU 编程 
中 的 静态 映射 方式 ， 而 是 构建 线程 与 任务 的 动态 映射 机 制 ， 根 据 线程 的 任务 负载 情 
况 ， 实 现 线程 和 任务 的 动态 映射 。 同 时 构建 以 此 为 任务 调度 策略 的 全 局 队列 ， 解 决 
work - group 间 负 载 不 均衡 的 问题 。 

口 本 地 队列 。 构 建 位 于 共享 内 存 (LDS, AMD GPU) 的 本 地 队列 ，work - group 
内 的 所 有 线程 协同 工作 ， 解 决 work - group 内 的 负载 不 均衡 问题 。 

本 节 将 对 以 上 关键 优化 方法 和 技术 进行 详细 讨论 和 介绍 。 

1. Uberkernel 

如 7. 2. 2 小 节 所 述 ， 为 检测 图 像 中 不 同 大 小 的 人 脸 ， 需 要 按照 一 定 的 缩放 因子 
对 图 像 进行 缩放 ， 直 到 缩放 图 像 和 检测 窗口 为 同等 大 小 为 止 ， 这 样 就 形成 了 一 个 缩 
放 图 像 集 。 如 果 一 次 只 处 理 一 幅 图 像 ， 并 通过 在 CPU 端 通过 多 次 启动 GPU kernel 
循环 处 理 这些 缩 放 图 像 ， 不 仅 会 增加 GPU kernel 的 启动 和 全 局 同步 开销 ， 而 且 当 
缩放 图 像 过 小 而 不 能 充分 利用 GPU 的 计算 资源 时 ,会 导致 CPU 计算 资源 的 极 大 浪 
费 ， 由 此 会 产生 图 像 级 负载 不 均衡 。 

为 此 ， 我 们 引入 了 Uberkernel 机 制 ， 其 核心 是 通过 kernel 合并 ,一 次 处 理 多 幅 
甚至 所 有 图 像 。 这 样 仅 通过 一 次 或 几 次 OpenCL kernel 的 启动 就 全 部 处 理 完 所 有 的 
缩放 图 像 。Uberkernel 的 具体 流程 如 图 7-6 所 示 。 
在 GPU 的 Global Memory 中 设立 一 个 统一 地 址 空间 ， 将 所 有 图 片 按照 缩放 比 
例 ， 顺 序 放 入 统一 地 址 空间 中 。 同 时 ，OpenCL kernel 将 对 这 些 缩放 图 片 按 照 统一 
方式 进行 处 理 。 当 图 片 太 大 ， 统 一 地 址 空间 不 能 全 部 容纳 所 有 缩放 图 片 时 ， 则 按照 
统一 地 址 空间 最 大 化 利用 的 原则 ( 尽 可 能 填 满 统一 地 址 空间 ) 对 缩放 图 片 进行 分 
组 ， 然 后 循环 处 理 每 组 图 片 。 该 机 制 尽 可 能 地 保证 每 个 OpenCL kernel 的 工作 量 足 
以 充分 利用 GPU 所 有 的 计算 资源 ， 很 好 地 解决 了 图 像 级 负载 不 均衡 问题 。 

2. 粗 粒 度 并 行 与 Persistent thread 

在 Uberkernel 的 线程 组 织 及 运行 方式 上 ， 本 书 引入 粗 粒 度 并 行 与 Persistent 
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图 7-6 ”Uberkernel 的 具体 流程 
































thread, 

传统 GPU 编程 是 大 规模 细 粒 度 并 行 ， 即 一 次 开启 大 量 线程 ， 并 以 单个 软件 线 
fe (thread) 作为 并 行 粒度 。 这 种 编程 方式 无 疑 是 线程 间 存 在 负载 不 均衡 特性 算法 
WEES, WIE, APE Viola - Jones 人 脸 检 测算 法 的 GPU 实现 中 ,采用 硬件 线程 
(NVIDIA GPU X warp, & 32 个 thread，AMD GPU 为 wavefront， 含 64 个 thread) F 
为 并 行 粒度 ， 同 时 ， 硬 件 线程 内 多 个 thread 协同 工作 ， 共 同 处 理 分 配 的 检测 窗口 ， 
其 协同 工作 方式 在 5. 本 地 队列 中 会 详细 讨论 。 粗 粒度 并 行 的 实现 方式 较为 简单 : 
一 个 work - group 只 包含 一 个 warp 或 者 wavefront，work - group 将 作为 全 局 队列 任 
务 分 配 的 单位 。 

采用 粗 粒 度 并 行 编程 方式 的 优势 主要 有 三 个 : 

口 移 除 本 地 同步 操作 。wavefront/warp 是 GPU 最 基本 的 执行 和 调度 单元 。 当 一 
个 work - group 内 只 包含 一 个 wavefront/warp 时 ， 可 移 除 本 地 同步 操作 ,减少 本 地 
同步 开销 ， 在 一 定 程度 上 提高 程序 性 能 。 

口 一 个 work - group 只 包含 一 个 wavefront/warp， 我 们 可 以 将 work - group 看 成 
是 一 个 与 其 他 work - group 执行 相互 独立 的 MIMD (Mutiple Instruction Multiple Data, 
多 指令 多 数据 ) 线程 。 即 保证 了 SIMD 执行 方式 的 有 效 性 ， 又 提供 了 MIMD 式 的 工 
作 粒 度 。 

O 减轻 work - group 内 线程 间 的 负载 不 均衡 。 在 粗 粒 度 并 行 模式 下 ， 任 务 的 分 
HELA work - group 为 单位 ，work - group 内 的 所 有 线程 协同 处 理 所 分 配 的 计算 任务 。 
这 种 工作 模式 结合 我 们 下 面 即将 讨论 的 本 地 队列 ， 可 大 大 减 小 work - group 内 线程 
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的 负载 不 均衡 现象 。 

当然 ， 粗 粒度 编程 方式 也 存在 一 个 劣势 ， 由 于 GPU 硬件 资源 的 限制 ， 每 个 CU 
上 同时 运行 的 work - group 数目 是 有 限制 的 ， 因 此 ， 当 work - group 包含 的 线程 数 
目 较 少 时 ， 可 能 会 导致 CU 上 同时 运行 的 线程 不 足 ， 从 而 不 能 有 效 隐藏 访 存 延迟 。 
幸运 的 是 ， 由 于 人 脸 检 测算 法 较 大 的 计算 密度 ， 这 个 劣势 可 以 消除 。 在 实际 实现 
中 ， 结 合 数据 本 地 化 ， 为 每 个 CU 部 署 8 ~12 个 work - group， 即 可 有 效 隐 藏 访 存 延 
iR, 

在 运行 方式 上 ,传统 CPU 线程 的 生命 周期 一 般 为 五 个 过 程 : 启动 、 获 取 操 作 
数据 、 处 理 数据 、 写 回 处 理 结果 、 退 出 ， 其 运行 及 调度 方式 都 是 静态 且 由 GPU 硬 
件 控制 。 这 种 运行 方式 显然 对 于 解决 负载 不 均衡 的 问题 是 非常 不 利 的 。 因 此 ， 本 书 
引入 的 Persistent Thread ， 其 生命 周期 和 OpenCL kernel 的 生命 周期 相同 ， 并 可 循环 
处 理 多 个 任务 : 线程 在 将 一 次 数据 人 处理 的 结果 写 回 后 ,不 是 立即 退出 ， 而 是 判断 是 
否 还 有 别 的 任务 需要 处 理 。 如 果 有 ， 线 程 将 继续 获取 任务 进行 处 理 ， 如 没有 才 退 
出 。 这 样 在 Viola - Jones 人 脸 检测 算法 中 ， 可 为 每 个 线程 分 配 多 个 检测 窗口 ， 线 程 
将 循环 处 理 这 些 检测 窗口 ， 直 到 将 分 配给 它 的 窗口 全 部 处 理 完毕 。 同 时 ,线程 与 检 
测 窗口 的 映射 将 根据 线程 的 任务 负载 情况 采用 动态 映射 方式 ， 从 而 最 大 限度 地 保证 
了 线程 间 的 负载 均衡 。 这 将 在 线程 与 任务 的 动态 映射 中 进行 详细 讨论 。 

3. 线程 与 任务 的 动态 映射 

在 线程 与 任务 的 映射 方面 ， 传 统 GPU 编程 采用 静态 编程 模式 ， 即 在 CPU ker- 
nel 启动 之 前 ， 线 程 和 任务 的 映射 就 已 经 确定 ,线程 由 GPU 硬件 顺序 调度 执行 ， 每 
个 线程 处 理 的 任务 和 任务 数 都 是 固定 的 。 这 种 编程 模式 虽然 很 好 地 满足 了 规则 的 数 
据 并 行 应 用 , 但是， 对 于 有 具有 线程 间 负 载 不 均衡 特征 的 人 脸 检 测算 法 ， 无 法 解决 其 
存在 的 负载 不 均衡 问题 。 本 书 在 Persistent Thread 的 基础 上 ， 引 入 GPU 动态 编程 模 
式 ， 该 模式 具有 以 下 四 个 特征 : 

口 固定 开启 线程 数目 。 根 据 目 标 CPU 计算 平台 的 CU 数量 ， 确 定 开启 的 线程 数 
目 。 在 人 脸 检 测算 法 中 ， 共 开启 8N (AMD GPU) 或 者 12N (NVIDIA GPU) 个 
work — group, HEF N 为 CU 数目 。 每 个 work - group 包含 64 (AMD GPU) 或 32 
(NVIDIA GPU) 个 线程 。 

口 每 个 线程 分 配 多 个 计算 任务 。 结 合 Persistent Thread 编程 方式 ， 每 个 线程 循 
环 处 理 多 个 任务 。 

O 在 线程 的 任务 分 配方 面 ， 在 GPU kernel 启动 之 后 ， 根 据 线程 的 实际 任务 负 
载 情况 确定 线程 与 任务 的 映射 关系 。 

O 该 策略 将 作为 全 局 队列 的 任务 调度 机 制 ， 根 据 粗 粒度 并 行 的 定义 ， 以 work - 
group 为 单位 进行 任务 分 配 。 

图 7-7 显示 了 线程 与 任务 动态 映射 的 过 程 : 首先 每 个 work - group 的 第 0 号 线 
程 作为 标记 线程 ， 访 问 位 于 全 局 内 存 上 的 原子 变量 C， 在 获得 原子 变量 访问 权 后 ， 
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图 7-7 线程 与 任务 动态 映射 示意 图 














对 原子 变量 加 N (N 为 work - group 
每 次 处 理 的 窗口 数目 ， 在 AMD GPU 
上 WN 为 64, 在 NVIDIA GPU 上 WN 为 
32); 然后 判断 6 是 否 小 于 检测 窗口 Hemel Preedection( ot 
总 数 Total + W， 如 小 于 ， 则 获取 该 2int lid = get_local_id(0); 
wok = group 要 处 理 的 检测 窗 口 ， AR 3__ local intlocal_index; 
则 对 应 work - group 退出 ;最 后 将 待 。 “下 

处 理 的 w 个 检测 窗口 返回 给 对 应 的 
work - group, work - group 以 5. 本 地 
队列 机 制 处 理 完 这 些 检测 窗口 后 ， 再 
重复 以 上 操作 ， 直 到 所 有 检测 窗口 都 
处 理 完毕 为 止 。 注 意 ， 所 有 检测 窗口 
以 队列 形式 存储 在 全 局 内 存 上 ， 全 局 
内 存 的 构建 组 织 方 式 将 在 4. 详细 讨 
论 。 图 7-8 为 线程 与 任务 动态 映射 的 
伪 代 码 。 





N: 每 个 work-group 一 次 处 埋 的 窗口 数 














Sif(lid == 0) local_index = atom_add(G, N); 
6Barrie(CLK_ LOCAL MEM FENCE); 
7 if(G < Total + N){//Total 为 检测 窗口 总 数 





8int index = com_data_add(local_index); 











9fetch_data and compute(index); 





10 } 


图 7-8 动态 映射 伪 代 码 


G: 位 十 全 局 内 存 的 原子 变 呈 ， 记 录 被 处 理 的 窗 11 数 
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动态 编程 模式 根据 线程 的 实际 任务 负载 情况 进行 任务 分 配 ， 即 当 work - group 
处 理 的 窗口 包含 人 脸 而 导致 计算 量 过 大 时 ， 该 work - group 处 理 的 窗口 数目 就 会 变 
少 ; 反之 ， 当 work - group 处 理 的 窗口 计算 量 小 时 ， 该 work - group 就 会 处 理 更 多 
的 窗口 。 因 此 ， 动 态 编程 模式 在 一 定 程度 上 解决 了 work - group 间 负 载 不 均衡 的 
问题 。 

当然 ， 动 态 编 程 模式 会 因原 子 变量 访问 导致 额外 的 开销 。 但 一 方面 ， 由 于 
work - group 的 调度 执行 存在 一 定 的 时 间 间 隔 ， 所 以 这 个 开销 会 非常 小 ; 另 一 方面 ， 
相对 于 负载 不 均衡 导致 的 性 能 瓶颈 ， 这 个 开销 几乎 可 以 忽略 不 计 。 因 此 ,动态 编 程 
方式 会 大 幅 提高 人 脸 检测 算法 在 GPU 上 的 性 能 。 

4. 全 局 队列 

线程 与 任务 的 动态 映射 机 制 能 够 很 好 地 解决 work - group 间 负 载 不 均衡 问题 的 
前 提 是 ， 位 于 全 局 内 存 上 的 待 检测 窗口 必须 被 很 好 地 组 织 ， 能 够 及 时 响应 访 存 请 
求 。 因 此 ， 本 书 引 入 全 局 队列 。 

全 局 队列 的 作用 是 以 队列 的 形式 组 织 好 待 检 测 窗口 ， 在 线程 与 负载 动态 映射 机 
制 下 ， 能 方便 地 建立 起 线程 与 数据 的 动态 映射 关系 。 结 合 前 面 讨论 的 Uberkernel 和 
Persistent Thread ， 全 局 任务 队列 的 工作 流程 如 下 : 首先 将 Uberkernel 中 所 有 的 探测 
窗口 都 加 入 到 该 队列 中 ; 其 次 以 32 (NVIDA GPU) 或 者 64 (AMD GPU) 为 单位 
将 探测 窗口 分 成 若干 任务 组 ， 并 将 其 作为 任务 调度 单位 ; 最 后 ， 根 据 线程 与 任务 动 
态 映 射 机 制 ， 以 work - group 为 分 配 单元 ， 根 据 线程 的 实际 任务 负载 情况 ， 完 成 任 
务 的 动态 分 配 。 

全 局 队列 除 任务 与 负载 动态 映射 机 制 外 ， 没 有 使 用 更 加 复杂 的 任务 调度 方式 。 
这 里 有 两 方面 的 原因 : 一 方面 ， 全 局 队列 位 于 全 局 内 存 上 ， 其 访 存 和 原子 操作 的 开 
销 都 非常 昂贵 。 复 杂 的 任务 调度 方式 不 仅 难以 实现 ， 而 且 可 能 会 产生 昂贵 的 调度 开 
销 ， 在 性 能 的 提升 上 得 不 偿 失 。 男 一 方面 ， 线 程 与 数据 动态 映射 机 制 已 经 决定 了 全 
局 任务 队列 的 任务 调度 方式 ， 且 这 种 任务 调度 方式 足够 解决 work - group 间 的 负载 
不 均衡 现象 。 

5. 本 地 队列 

线程 与 任务 的 动态 映射 及 全 局 队列 机 制 的 引入 ， 较 好 地 解决 了 work - group EJ 
负载 不 均衡 的 问题 ， 而 work - group 内 线程 间 负 载 不 均衡 的 问题 由 位 于 片上 本 地 内 
存 (共享 内 存 ，NVIDIA GPU) 的 本 地 队列 解决 。 

图 7-9 详细 显示 了 本 地 队列 及 其 任务 处 理 过程 。work - group 将 其 负责 处 理 的 
待 检测 窗口 组 织 为 位 于 片上 本 地 内 存 的 队列 ， 然 后 使 用 级 联 分 类 器 进行 检测 。 每 级 
分 类 器 将 会 检测 队列 中 的 所 有 窗口 ， 通 过 本 级 检测 的 窗口 将 会 重新 进入 队列 ， 等 待 
下 一 级 分 类 器 的 进一步 检测 ; 否则 ,该 窗口 将 会 被 丢弃 。 其 检测 过 程 分 为 两 个 
阶段 : 


口 第 一 为 单独 处 理 阶段 
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图 7-9 本 地 队列 


因为 0 ~2 级 分 类 器 特征 数目 较 少 ， 可 以 很 快 计 算 完 成 ， 故 令 每 个 线程 单独 负 
责 处 理 一 个 窗口 。 在 这 个 过 程 中 ， 当 使 用 1 ~ 2 级 分 类 器 进行 检测 时 ， 会 有 线程 处 
于 空闲 状态 ， 但 这 个 时 间 太 短 ， 不 足以 引起 性 能 瓶颈 ， 反 而 会 减少 协同 处 理 开 销 。 

口 第 二 为 协同 处 理 阶 段 

随 着 分 类 器 级 数 的 增 大 ， 特 征 数目 和 计算 量 会 急剧 增长 。 同 时 ,经 过 0 ~2 级 
分 类 器 的 检测 ， 队 列 中 的 待 检测 窗口 数目 也 会 减少 。 此 时 进入 协同 处 理 阶 段 。 即 一 
次 从 队列 中 取出 1 (Æ AMD GPU EM X4, Nvidia GPU 上 为 2) 个 检测 窗口 ， 
由 work - group 内 所 有 线程 协同 处 理 (通过 检测 的 窗口 返回 队列 ) ， 直 到 队列 中 的 
所 有 窗口 都 通过 本 级 分 类 器 检测 为 止 ;然后 进入 下 一 级 分 类 器 继续 检测 ; 最 后 只 
经 过 最 后 一 级 分 类 器 检测 的 检测 窗口 中 才 包 含 人 脸 。 

由 此 可 见 ， 本 地 队列 基本 上 解决 了 work - group 内 部 线程 间 负 载 不 均衡 的 
问题 。 

6. 其 他 优化 方法 

除 以 上 优化 方法 外 ，Viola - Jones 人 脸 检测 算法 还 使 用 了 GPU 传统 优化 方法 : 

口 开 发 ILP。 开 发 ILP 的 主要 有 两 种 方式 : 一 是 循环 展开 ; 二 是 调整 代码 顺序 ， 
使 相同 指令 类 型 (GPU 的 指令 类 型 可 分 为 三 种 : 读 内 存 指 令 、 计 算 指 令 以 及 写 内 
存 指令 。 在 执行 过 程 中 ，GPU 会 将 相互 独立 、 相 同类 型 且 相 邻 的 指令 打包 在 一 起 
并 行 执行 ) 的 代码 打包 在 一 起 ， 编 写 对 编译 器 友好 的 代码 。 

口 指 令 选择 优化 。 因 为 人 脸 检 测 函 数 较 高 的 计算 密度 ， 选 择 高 吞吐 量 的 指令 对 
性 能 的 提升 就 变 得 尤为 重要 。 在 改 算法 的 实现 中 ， 共 采取 了 两 种 指令 优化 ， 一 是 使 
用 位 运算 指令 代替 乘法 和 除法 指令 ; 二 是 用 mad24 、MU124 指令 代 蔡 乘 加 指令 。 

口 减少 动态 指令 。 主 要 方法 是 减少 条 件 分 支 。 因 为 人 脸 检测 算法 中 存在 着 大 量 
的 条 件 判断 语句 ， 因 此 使 用 ?: 语句 代替 if else… 语 句 是 减少 动态 指令 的 主要 
方式 。 
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7. 性 能 移植 优化 

如 前 文 所 述 ， 虽 然 GPU 架构 日 益 多 样 化 ， 但 是 统一 的 层次 式 架 构 模 式 为 性 能 
移植 提供 了 可 能 。 只 要 完成 关键 性 能 参数 的 抽取 ， 并 建立 完善 的 性 能 参数 传递 机 
制 ， 就 可 实现 不 同 CPU 硬件 平台 间 的 性 能 移植 。 

两 个 CPU 计算 平台 的 关键 性 能 参数 抽取 如 表 7-1 所 示 。 在 性 能 参数 传递 机 制 
构建 方面 ， 利 用 OpenCL 程序 运行 时 编译 的 特点 ， 通 过 宏 定义 将 性 能 参数 在 编译 时 
传人 OpenCL kernel, 根据 目标 平台 ， 传 入 相应 的 性 能 参数 。 根 据 以 上 方法 ， 本 书 
在 不 修改 代码 的 前 提 下 ， 最 终 实现 了 Viola - Jones 人 脸 检 测算 法 在 AMD Radeon 
HD7970 和 NVIDIA GTX680 两 个 不 同 GPU 计算 平台 上 的 性 能 移植 。 

表 7-1 不 同 GPU 计算 平台 的 关键 性 能 参数 





















































GPU AMD Radeon HD7970 NVIDIA GTX 680 
work - group 大 小 64 32 
work — group 数目 28 x8 14x12 
全 局 队列 任务 发 送 单元 64 32 
本 地 队列 协同 处 理 单元 4 2 
处 理 每 个 检测 窗口 的 线程 数目 16 16 
循环 展开 次 数 4 2 








7.4 性 能 评估 


7.4.1 实验 平台 


本 书 选取 AMD HD7970 和 NVIDIA GTX680 两 个 不 同 架 构 的 GPU 作为 性 外 


6 测试 


EA, YH Intel (R) Xeon (R) X5550 Quad Core CPU (2.66GHz 8MB L3 cache) 


作为 CPU 计算 平台 





GPU 计算 平台 的 主要 性 能 参数 如 表 7-2 所 示 。 


表 7-2 GPU 计算 平台 性 


能 参数 


。 选 取 两 个 不 同 计算 平台 的 目的 是 验证 性 能 可 移植 性 。 两 个 


























GPU AMD Radeon HD7970 NVIDIA GTX 680 
Clock Rate 0. 925GHz 1. 006GHz 
PE 2048 1536 
cU 32 8 
Peak Per 3790GFlops 3090GFlops 
Memory 3. 0GB 6. OGB 
Peak BW 264GB/s 192GB/s 
Register/CU 16K 16K 
LDS/CU 64K 48K 
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Viola - Jones 人 脸 检测 算法 的 CPU WRASSE A OpenCV2.4， 该 版 本 已 深度 优化 ， 
在 CPU 平台 上 具有 较 高 的 性 能 。 因 此 ， 选 择 该 版 本 ， 可 提高 性 能 对 比 的 可 信和 性 。 
值得 注意 的 是 CPU 版 本 在 编译 时 ， 添加“ -0o3” 选 项 ， 以 充分 利用 CPU 的 计算 资 
提高 CPU 串 行 版 本 的 性 能 。 检 测 图 片 来 源 于 CMU 人 脸 检测 项 目 所 用 的 数据 


过 [21 ， 该 数据 库 是 CMU 人 脸 检测 项 目 hee 














ieee 提供 了 用 于 大 量 评估 算 
法 准确 性 的 人 脸 正 面 图 片 ， 非常 具 有 代 a 
表 性 。 

在 实际 测试 中 ， 我 们 选择 了 50 SKE 
像 ， 共 包含 427 个 人 脸 , 来 评估 我 们 实 | | 
现 的 人 脸 检 测算 法 GPU 版 本 的 正确 性 和 SE 
PERE. Al 7-10 列举 了 其 中 3 幅 不 同 大 辆 
小 、 不 同 背 景 、 不 同人 脸 数 目的 图 片 。 
其 中 图 片 1 的 大 小 为 256 x337, BAA f 
脸 数 日 为 1; 图 片 2 大 小 为 696 x 510, o) a) 
包含 人 脸 数 目 为 12; 图 片 3 大 小 为 图 7-10 检测 图 像 
1280 x1024， 包 含 人 脸 数目 为 56。 


7.4.2 正确 性 验证 


本 书 选取 OpenCV2. 4 库 中 实现 的 Viola - Jones 人 脸 检 测算 法 作为 进行 CPU 移 
植 和 优化 的 基准 CPU 程序 ，OpenCL 程序 的 各 方面 参数 与 该 基准 程序 保持 一 致 。 同 
时 ， 检 测 模型 也 直接 使 用 OpenCV2. 4 自 带 的 检测 模型 。 因 此 ， 本 书 的 正确 性 验证 
只 和 该 CPU 串 行 代码 的 运行 结果 进行 比较 。 值 得 注意 的 是 ， 通 过 改进 算法 及 检测 
模型 来 提高 检测 的 准确 率 并 不 是 本 书 关注 的 内 容 ， 本 书 主要 关注 相同 算法 实现 在 
GPU 计算 平台 上 的 性 能 提升 。 

图 7-10 显示 了 本 书 实现 的 OpenCL 版 本 对 3 幅 不 同 图 像 的 检测 结果 。 从 中 我 
们 可 以 看 出 : 并 不 是 所 有 的 人 脸 都 被 检测 出 来 。 这 主要 是 因为 这 些 未 检测 出 的 人 脸 
并 不 是 标准 正面 像 。 同 时 也 可 以 发 现 许多 没有 人 脸 的 区 域 也 被 检测 为 人 脸 ， 如 图 像 
3。 这 是 因为 这 些 区 域 在 一 定 程度 上 与 人 脸 相似 。 从 以 上 分 析 可 以 看 出 ，OpenCL 版 
本 并 没有 达到 100% 的 人 脸 检 测 精 确 度 。 但 通过 和 OpenCV 库 中 的 CPU 串 行 版 本 的 
运行 结果 相 比 较 ， 我 们 发 现 人 脸 检测 精度 没有 实现 100% 与 串 行 算法 实现 及 检测 模 
型 有 关 ， 而 与 OpenCL 实现 无 关 。 

表 7-3 显示 了 CPU 品行 版 本 和 本 书 实现 的 OpenCL 版 本 针对 不 同 图 片 的 人 脸 检 
测 数目 。 从 中 可 以 看 出 ， 本 书 实现 的 OpenCL 版 本 在 人 脸 检 测 数目 上 与 CPU 串 行 版 
本 完全 一 致 ， 这 就 证 明了 人 脸 检测 算法 OpenCL 版 本 实现 的 正确 性 。 而 人 脸 检测 的 
准确 率 可 通过 改进 算法 实现 或 者 使 用 更 精确 的 检测 模型 来 提高 ， 但 这 并 不 是 本 书 关 
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注 的 内 容 。 
表 7-3 CPU 版 本 与 OpenCL 版 本 人 脸 检 测 数 目 (单位 : 个 ) 
CPU 版 本 OpenCL 版 本 
图 片 编号 a : 
group 前 group 后 group 前 group 后 
1 24 1 24 1 
2 621 11 621 11 
3 2896 58 2896 58 














7.4.3 性 能 分 析 


1. 整体 性 能 分 析 

图 7-11 和 图 7-12 分 别 显 示 了 优化 后 的 Viola - Jones 人 脸 检 测算 法 在 AMD 
HD7970 和 NVIDIA GTX680 两 个 不 同 GPU 计算 平台 上 的 性 能 及 相对 于 CPU 版 本 的 
性 能 提升 。 值 得 注意 的 是 ，OpenCL 版 本 的 性 能 测定 包含 了 OpenCL 程序 运行 的 所 
有 了 时间， 包括 : OpenCL 初始 化 时 间 、CPU 和 GPU 间 的 数据 传输 时 间 以 及 kernel 的 
运行 时 间 。 
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1600 F 一 目 一 CPU 版 本 
1400 上 
1200 + 


1000 F 
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图 7-11 OpenCL 版 本 与 CPU 版 本 性 能 对 比 

















从 中 我 们 可 以 看 出 ， 与 人 脸 检 测 的 CPU 版 本 的 性 能 相 比 ， 本 书 实现 的 OpenCL 
版 本 在 两 个 GPU 计算 平台 上 处 理 不 同 的 图 片 都 达到 了 可 观 的 加 速 比 : 在 AMD 
HD7970 GPU 计算 平台 上 ， 实 现 了 11. 24 ~ 20.27 的 性 能 加 速 ; 在 NVIDIA GTX680 
计算 平台 上 ， 实 现 了 9. 24 ~17. 62 的 性 能 加 速 。 可 以 看 到 ，NVIDIA GTX 680 GPU 
与 AMD HD7970 GPU 相 比 ， 在 性 能 提升 方面 略 有 差距 。 这 主要 是 因为 前 者 在 峰值 
计算 性 能 和 峰值 访 存 带宽 这 两 个 主要 的 性 能 参数 方面 ， 弱 于 后 者 。 

图 7-11 和 图 7-12 不 仅 说 明了 我 们 优化 框架 的 有 效 性 ， 有 效 地 解决 了 算法 负载 
不 均衡 的 问题 ， 而 且说 明了 虽然 两 个 GPU 计算 平台 的 架构 不 同 ， 计 算 单 元 的 组 织 
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“中 国 AMD HD7970 NVIDIA GTX680 


20.27 
207 
17.62 


15.63 


i 13.15 
X 11.24 
2 iot 9.24 
E=] 
SF 
0 
1 j 3 


图 7-12 在 两 个 GPU 上 的 性 能 加 速 


也 不 相同 ,但 是 二 者 都 采用 了 层次 式 架构 ， 优 化 技术 和 方法 也 大 致 相同 ， 只 要 对 性 
能 参数 进行 精心 抽取 和 定义 (如 7.3.3 小 节 中 的 每 个 work - group 一 次 处 理 的 窗口 
BN 以 及 work - group 内 线程 处 理 一 次 协同 处 理 的 窗口 数 1 等 ) ， 是 完全 可 以 实现 
不 同 GPU 计算 平台 间 性 能 移植 的 。 

同时 ， 我们 可 以 看 到 ， 对 于 不 同 图 像 ，GPU 的 加 速效 果 也 是 不 同 的 。 主 要 有 
两 方面 的 原因 : 第 一 ，GPU 是 大 规模 并 行 处 理 器 ， 理 论 上 ， 图 片 规模 越 大 ， 计 算 
量 越 大 ， 越 能 充分 利用 GPU 计算 平台 强大 的 计算 能 力 ， 加 速效 果 也 就 越 好 。 第 二 ， 
图 像 的 背景 和 人 脸 数目 不 同 ， 算 法 的 总 体 计 算 量 也 不 同 。 同 时 ， 算 法 在 处 理 不 同 图 
片 时 的 负载 不 均衡 的 程度 也 不 尽 相 同 ， 从 而 进一步 影响 GPU 计算 平台 对 性 能 的 提 
升 效 果 。 

2. 不 同 优化 方法 对 性 能 的 影响 

图 7-13 显示 了 以 Naive 版 本 为 基准 ， 采 用 不 同 优化 方法 后 ， 在 两 个 GPU 计算 
平台 上 所 融 来 的 性 能 提升 。 

从 图 7-13 中 ,我 们 可 以 看 到 六 点 : 

O 在 两 个 CPU 计算 平台 上 ,不 同 优化 方法 带 来 的 性 能 提升 哩 有 差异 ,但 趋势 
大 臻 相同 。 这 不 仅 说 明了 两 个 GPU 计算 平台 在 整体 架构 设计 上 的 统一 性 ， 而 且说 
明了 在 两 个 CPU 计算 平台 上 ， 线 程 间 负载 不 均衡 都 是 最 严重 的 性 能 瓶颈 ， 都 是 导 
致 性 能 降低 的 主要 因素 。 

口 线程 与 任务 的 动态 映射 带 来 的 性 能 提升 最 大 ， 注 意 这 里 的 线程 与 任务 动态 映 
射 实际 指 的 是 动态 映射 + 全 局 队列 ， 因 为 两 者 是 一 个 统一 整体 ， 没 有 必要 分 开 说 
明 。 从 性 能 图 中 可 以 看 出 ， 采 用 传统 GPU 静态 编程 模式 ，work - group 间 的 负载 不 
均衡 会 导致 性 能 的 极 大 降低 ， 这 是 因为 图 片 中 绝 大 部 分 区 域 没 有 人 脸 ， 大 量 的 线程 
可 能 运行 很 短 的 时 间 就 会 退出 等 待 ， 只 有 少量 线程 在 运行 。 而 线程 和 任务 的 动态 映 
射 很 好 地 解决 了 这 个 问题 ， 因 为 线程 和 任务 动态 映射 的 核心 是 根据 线程 的 实际 任务 
负载 情况 ， 动 态 进 行 任务 的 分 配 。 这 样 就 可 以 让 执行 大 任务 的 线程 ， 执 行 的 任务 数 
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7-13. 不 同 优化 方法 在 两 个 GPU 计算 平台 上 的 性 能 提升 


量 就 少 一 些 ; 执行 小 任务 量 的 线程 ， 执 行 的 任务 数量 就 多 一 些 。 这 就 从 根本 上 解决 
了 work - group 间 负 载 不 均衡 的 问题 。 

O 本 地 队列 也 有 效 地 提升 了 算法 性 能 。 这 说 明了 三 点 : (Dwork - group 内 同样 
存在 线程 间 负 载 不 均衡 问题 ， 同 样 会 影响 程序 性 能 ，@work - group 内 线程 间 负 载 
不 均衡 对 性 能 的 影响 没有 work - group 间 的 负载 不 均衡 对 性 能 的 影响 大 ， 这 是 因为 
一 个 work - group 处 理 的 图 像 区 域 毕竟 有 限 ， 线 程 间 的 计算 量 并 不 会 差距 太 大 ; © 
本 地 队列 很 好 地 解决 了 work - group 内 线程 间 的 负载 不 均衡 问题 。 

O 传统 优化 方法 带 来 的 性 能 提升 并 不 明显 。 这 就 说 明了 负载 不 均衡 是 人 脸 检 测 
算法 在 GPU 计算 平台 上 的 性 能 瓶颈 ， 传 统 意义 上 引起 性 能 下 降 的 因素 在 该 算法 上 
体现 得 并 不 明显 。 但 同时 也 说 明了 ， 只 要 解决 负载 不 均衡 问题 ， 传 统 优化 方法 依然 
会 改善 CPU 计算 资源 的 利用 率 ， 同样 可 以 带 来 性 能 提升 。 

O 虽然 Persistent Thread 和 kernel 合并 对 性 能 的 提升 有 限 , 但 是 两 者 是 整个 优 
化 框架 的 基础 。 对 性 能 影响 最 大 的 线程 与 任务 的 动态 映射 机 制 构建 的 基础 就 是 Per- 
sistent Thread 和 kernel 合并 。 粗 粒度 并 行 虽然 无 法 测试 对 性 能 的 具体 影响 ， 但 同样 
作为 优化 框架 的 基础 ， 同 本 地 队列 一 起 ， 克 服 work - group 内 线程 间 的 负载 不 均衡 
问题 ， 从 而 在 一 定 程度 上 提升 算法 性 能 。 
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口 通 过 该 算法 的 优化 ， 说 明了 只 要 经 过 精心 优化 ， 具 有 负载 不 均衡 特征 的 非 规 
则 算法 在 GPU 计算 平台 上 也 能 够 取得 非常 好 的 加 速 比 。 因 此 ，GPU 不 仅 对 规则 的 
数据 级 并 行 能 够 取得 很 好 的 加 速效 果 ， 对 于 不 规则 的 任务 级 并 行 ， 只 要 优化 方法 得 
当 ， 也 会 取得 相当 可 观 的 性 能 加 速效 果 。 这 无 疑 会 大 大 扩展 GPU 计算 平台 的 应 用 
场景 。 

3. 以 往 工 作对 比 

虽然 有 很 多 关于 Viola - Jones 人 脸 检 测算 法 的 GPU 移植 工作 ， 但 很 少 有 发 布 出 
来 的 代码 或 者 库 。 而 针对 不 同 图 片 ， 人 脸 检 测算 法 的 性 能 又 具有 很 大 的 差异 性 。 因 
此 ， 在 与 以 往 工作 的 对 比 上 ， 本 书 只 选取 了 OpenCV2.4 库 中 该 算法 的 OpenCL 实现 
版 本 。 但 考虑 到 OpenCV 在 计算 机 视觉 领域 应 用 的 广泛 性 ， 这 个 对 比 也 在 一 定 程 度 
上 体现 了 我 们 工作 的 有 效 性 。 

图 7-14 显示 了 本 书 实 现 与 OpenCV2.4 中 人 脸 检 测算 法 的 OpenCL 版 本 的 性 能 
对 比 。 从 图 中 可 以 看 出 ， 相 对 于 OpenCy 库 的 实现 ， 本 书 实 现在 两 个 GPU 计算 平 
台 上 ， 针 对 不 同 图 片 都 取得 了 较 大 的 性 能 提升 。 具 体 为 : 在 AMD HD7970 计算 平 
台 上 ， 取 得 了 27.1% ~37.9% 的 性 能 提升 ; 在 NVIDIA GTX 680 计算 平台 上 取得 了 


20. 6% ~31.7% 的 性 能 提升 。 
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7-14 本 书 实现 与 OpenCV 的 性 能 对 比 


本 书 实现 取得 性 能 提升 的 主要 原因 是 work - group 间 负 载 不 均衡 问题 的 解决 : 
OpenCV 库 的 OpenCL 实现 版 本 中 ， 全 局 队列 依旧 采用 项 态 调 度 方 式 ， 没 有 很 好 地 
解决 全 局 队列 的 任务 调度 问题 ，work - group 间 的 负载 不 均衡 问题 依然 没有 改善 。 
而 在 本 书 中 ， 实 现 了 线程 与 任务 的 动态 映射 机 制 ， 全 局 队列 可 以 根据 线程 的 实际 任 
务 负载 情况 进行 任务 分 配 ， 很 好 地 解决 了 work - group 间 的 负载 不 均衡 问题 。 

总 之 ， 本 书 提出 的 优化 框架 很 好 地 解决 了 Viola - Jones 人 脸 检 测算 法 在 GPU 的 
实现 和 优化 中 ， 由 于 负载 不 均衡 导致 的 性 能 瓶颈 ， 取 得 了 可 观 的 性 能 加 速 比 。 该 框 
架 的 六 个 组 成 部 分 ， 即 各 司 其 职 ， 又 相互 协作 ， 共 同 提 升 了 人 脸 检 测算 法 在 CPU 
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计算 平台 上 的 性 能 。 同 时 ， 该 框架 不 仅 适 用 于 人 脸 检 测算 法 ， 而 且 对 于 其 他 具有 类 
似 特征 的 算法 ， 也 具有 很 好 的 指导 意义 和 参考 价值 。 


7.5 本章 小 结 





本 章 详 细 介 绍 了 Viola - Jones 人 脸 检 测算 法 在 GPU 计算 平台 上 实现 和 优化 的 关 
键 方法 和 技术 。 由 于 人 脸 检 测算 法 的 GPU 实现 存在 线程 间 负 载 不 均衡 的 非 规则 特 
性 ， 导 致 仅 使 用 传统 优化 方法 无 法 有 效 提 升 性 能 。 本 书 构建 了 一 个 针对 此 类 算法 的 
并 行 优化 框架 通过 Uberkernel、 粗 粒度 并 行 、Persistent Thread 、 线 程 与 任务 动态 映 
射 、 本 地 /全 局 队列 等 优化 方法 的 使 用 突破 了 由 于 线程 间 负 载 不 均衡 导致 的 性 能 瓶 
颈 。 实 验 结果 表明 ， 与 OpenCV2. 4 中 经 过 高 度 优化 的 CPU 版 本 在 Intel Xeon X5550 
CPU 上 的 性 能 相 比 ， 优 化 后 的 算法 在 AMD HD7970 和 NVIDIA GTX680 两 个 不 同 
GPU 计算 平台 上 分 别 达 到 了 11. 24 ~20.27 和 9. 24 ~ 17. 62 倍 的 加 速 比 ， 不 仅 实现 
了 高 性 能 ， 而 且 实 现 了 在 不 同 CPU 计算 平台 间 的 性 能 移植 。 本 章 所 采用 的 优化 方 
法 ， 对 其 他 具有 线程 间 负 载 不 均衡 特性 的 算法 在 CPU 计算 平台 上 的 实现 和 优化 也 
具有 很 好 的 指导 意义 和 参考 价值 。 
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8.1 引言 


随 着 传感器 技术 、 控 制 系统 、 人 工 智能 的 不 断 发 展 ， 无 人 自主 驾驶 技术 取得 了 
很 大 的 进步 。 该 技术 可 以 在 自动 芍 驶 和 辅助 驾驶 系统 等 方面 帮助 减少 交通 事故 ， 帮 
助 解决 城市 交通 问题 。 因 此 ， 对 于 无 人 自主 驾驶 技术 的 研究 具有 广泛 的 科学 意义 和 
现实 价值 。 近 年 来 ， 在 无 人 车 系统 中 ， 和 常用 的 传 感 品 有 视觉 传感器 〈 相 机 ) 、 激 光 
传 感 需 〈 单 线 和 多 线 ) 、 惯 性 导航 (INS) 、GPS 定位 系统 等 。 无 人 车 通过 传 感 需 获 
取 数 据 ， 然 后 经 过 相应 的 信号 处 理 算法 ， 得 到 车 体 周围 的 感知 信息 ， 规 划 模 块 依据 
感知 模块 所 获得 的 信息 给 出 目标 路 径 ， 传 给 底层 控制 系统 ， 最 后 做 出 相应 的 决策 ， 
确保 安全 驾驶 。 其 中 视觉 传 感 需 主要 用 于 道路 检测 、 目 标 检 测 跟 踪 、 交 通信 号 灯 和 
交通 标志 信和 号 检测 等 ;激光 传感器 主要 用 于 障碍 检测 、 目 标 分 类 、 目 标 跟 踪 、 地 形 
分 类 、 同 步 建 图 (SLAM) 等 。 视 觉 传感器 有 较 好 的 角 分 辨 率 ， 但 缺乏 距离 信息 ， 
而 距离 传感器 有 较 精 确 的 距离 信息 ， 但 缺少 颜色 信息 。 因 此 ， 在 实际 的 自主 式 系统 
中 ， 往 往 会 融合 视觉 传感器 和 距离 传感器 的 信息 ， 相 互补 充 。 

因此 ， 激 光 雷 达 传 感 器 在 智能 车 辆 环境 感知 系统 中 具有 非常 重要 的 意义 。 立 体 
视觉 系统 则 需要 经 过 复杂 计算 过 程 ， 包 括 匹 配 、 视 差 图 计算 等 ， 才 能 够 获取 障碍 物 
的 距离 信息 ， 而 激光 雷达 传感器 能 够 直接 、 准 确 地 获得 障碍 物 的 距离 信息 ， 更 能 满 
足 智 能 车 辆 环境 感知 系统 的 高 实时 性 要 求 。 与 其 他 主动 性 传感器 相 比 ， 激 光 雷 达 传 
感 絮 同样 具有 很 大 的 优势 。 上 毫米 波 雷 达 由 于 波长 的 差别 ， 其 测 距 精 度 不 如 激光 雷 
达 ， 而 超声 波 雷 达 则 主要 用 于 检测 短 距离 的 障碍 物 信息 。 因 此 ， 在 高 速 、 准 确 的 道 
路 跟踪 中 ， 激 光 雷 达 具 有 不 可 替代 的 地 位 。 


8.1.1 国外 研究 现状 


无 人 自主 驾驶 汽车 的 研究 可 追溯 到 20 世纪 50 年 代 初 美国 Barrett Electronics 4 
司 研发 出 的 汽车 工业 中 的 第 一 台 自 主导 航 车 辆 ( Automated Guided Vehicle System, 
AGVS) 。 自 20 世纪 50 年 代 后 半期 开始 ， 以 美国 为 首 , 日 本 、 德 国 、 英 国 等 许多 
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国家 就 相继 开展 了 无 人 自主 各 驶 汽车 的 研究 。 到 目前 为 止 ， 许多 国家 对 无 人 目 主 澡 
驶 汽车 的 研究 和 应 用 依旧 表现 出 了 极 大 的 热情 ， 各 国 从 政府 领域 到 高 校 、 科 研 单 
位 、 汽 车 厂商 甚至 互联 网 公司 都 为 此 投入 了 大 量 的 人 力 、 物 力 ， 无 人 上 自主 驾驶 汽车 
技术 也 得 到 了 突飞猛进 的 发 展 ， 如 美国 的 卡 内 基 梅 隆 大 学 (Carnegie Mellon Univer- 
sity, CMU) 的 NavLab 系统 ，NASA 喷气 推进 实验 室 的 DEMO 系列 军用 侦察 无 人 车 
辆 ， 斯 坦 福 大 学 的 Junior， 德 国 的 VaMoRs -P 系统， 意大利 由 尔 玛 (Parma) 大 学 
的 ARGo 车 辆 系统 等 。 

德国 乌 尔 姆 (Ulm) 大 学 Dietmayer 教授 领导 的 研究 小 组 多 年 来 致力 于 智能 车 
辆 的 研究 工作 ,在 ARGOS 项 目 中 研究 了 激光 雷达 在 智能 车 辆 的 环境 感知 中 的 应 
用 。2002 年 ， 该 研究 小 组 报道 了 利用 激光 雷达 ， 通 过 特征 提取 的 方式 识别 和 跟踪 
环境 中 的 目标 的 工作 ， 提 出 了 一 种 基于 模型 的 目标 分 类 算法 ,根据 目标 的 几何 外 形 
和 运动 特性 对 目标 进行 分 类 ， 并 用 卡尔 曼 滤 波 器 对 目标 进行 跟踪 。 该 小 组 2004 一 
2007 年 报道 的 研究 工作 中 ， 继 续 利用 基于 模型 的 方法 识别 和 跟踪 环境 中 的 目标 ， 
采用 基于 距离 的 方法 对 激光 测量 值 进行 聚 类 ， 根 据 聚 类 大 小 ， 采 用 不 同 的 特征 提取 
算法 ， 在 聚 类 内 提取 目标 的 特征 向 量 , 识别 不 同类 别 的 目标 ， 加 入 了 特别 的 行人 识 
别 算法 和 车 辆 目标 识别 算法 。 目 标 跟 踪 中 ， 如 果 一 个 聚 类 中 落 入 某 个 假设 范围 内 的 
测量 值 的 个 数 与 该 聚 类 中 所 有 测量 值 个 数 的 比值 大 于 一 定 的 阔 值 ， 则 确认 该 聚 类 和 
假设 的 关联 。 当 上 距离 较 近 的 几 个 聚 类 同时 落 入 一 个 假设 的 预测 范围 内 时 ， 这 种 关联 
算法 将 不 再 适用 。2007 年 至 今 ， 该 小 组 应 用 栅 格 地 图 处 理 激光 雷达 的 数据 ， 建 立 
了 车 辆 行驶 环境 中 的 交通 设施 ， 包 括 交通 标示 、 路 沿 、 护 栏 等 的 数字 地 图 ， 通 过 检 
测 路 沿 估计 道路 的 可 行驶 区 域 ， 提 出 了 栅 格 地 图 中 的 运动 目标 检测 方法 。 

意大利 ( 帕 尔 玛 ) 大 学 Broggi 教授 的 智能 车 辆 研究 小 组 在 机 器 视 觉 方 面 取得 
了 很 大 成 就 ， 但 近年 来 也 开始 采用 激光 雷达 进行 车 辆 和 行人 的 检测 。2006 年 ， 该 
小 组 报道 了 利用 激光 雷达 和 立体 视觉 分 别 建立 栅 格 地 图 ， 然 后 将 二 者 建立 的 栅 格 地 
图 进行 融合 的 工作 。2009 年 ， 该 小 组 报道 了 利用 单线 激光 雷达 SICK LMS211 分 别 
检测 运动 的 车 辆 目标 和 行人 目标 。 该 雷达 通过 四 次 扫描 获取 一 帧 数据 ， 根 据 同一 帧 
数据 点 间 的 相对 位 置 关系 判断 车 辆 目标 是 否 运 劲 ， 但 这 种 方法 只 局 限于 特定 的 激光 
传感器 。 在 行人 检测 中 ， 利 用 原始 的 激光 雷达 数据 确定 危险 区 域 ， 在 危险 区 域 中 通 
过 基于 特征 的 方法 检测 行人 目标 ， 不 需要 对 行人 目标 进行 危险 等 级 的 评估 ， 节 省 了 
计算 量 。 

法 国 University of Grenoble 的 Vu 教授 领导 的 智能 车 辆 研究 小 组 利用 激光 雷达 建 
立 环境 的 顶 格 地 图 ,在 地 图 中 的 空白 区 域 检 测 运动 目标 ， 分 别 利用 两 种 栅 格 地 图 代 
表 静 态 和 动态 障碍 物 。 利 用 多 假设 跟踪 ( MHT) 对 动态 障碍 物 进行 跟踪 。 该 小 组 
2012—2013 年 报道 的 工作 中 ， 建 立 了 激光 和 视觉 传感器 的 融合 框架 ， 对 利用 激光 
雷达 的 深度 信息 建立 的 栅 格 地 图 中 识别 出 的 运动 目标 ， 利 用 证 据 理论 融合 立体 视觉 
的 检测 结果 进行 分 类 ， 最 终 通过 多 假设 跟踪 和 交互 多 模型 (Interacting Multiple 
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Models, IMM) 对 激光 雷达 检测 到 的 多 个 运动 目标 进行 跟踪 。 

法 国 University of technologie de compiégne 的 Moras 等 近年 来 在 智能 车 辆 的 环境 
感知 方面 做 出 了 很 大 贡献 。 该 组 利用 激光 雷达 的 深度 信息 ， 基 于 证 据 理论 建立 环境 
的 栅 格 地 图 ， 利 用 证 据 理论 中 的 冲突 信息 检测 运动 目标 ， 并 与 现 有 的 数字 地 图 相 结 
合 ， 更 加 准确 地 对 车 辆 的 行驶 环境 进行 感知 。 该 组 的 工作 未 涉及 对 运动 目标 的 
跟踪 。 

Gidel 等 利用 四 线 激光 雷达 检测 城市 环境 中 的 行人 目标 ， 首 先 通 过 每 一 层 数 据 
分 别 检测 行人 ， 然 后 对 每 层 的 检测 结果 通过 无 参 密度 估计 得 到 某 处 行人 目标 存在 的 
概率 ， 相 比 单线 激光 雷达 的 检测 结果 ， 检 测 的 正确 率 有 所 提高 ， 误 检 率 有 所 下 降 。 
考虑 到 行人 运动 的 不 确定 性 ， 采 用 粒子 滤波 对 检测 到 的 行人 进行 跟踪 。 

卡 内 基 梅 隆 大 学 Wang 等 利用 激光 雷达 和 里 程 计 同 时 完成 智能 车 辆 在 城市 环境 
中 的 同时 定位 与 建 图 (Simutaneous Localization and Mapping, SLAM) 和 多 目标 识别 
与 跟踪 ( Detection and Tracking of Multi Objects, DATMO) 。 文中 通过 基于 距离 的 方 
法 对 深度 信息 进行 分 割 ， 在 上 一 帧 地 图 的 空白 区 域 中 检测 运动 目标 ， 如 果 测 量 数 据 
出 现在 空白 区 域 中 ， 则 认为 该 测量 值 属于 运动 目标 ; 如 果 一 个 聚 类 内 的 测量 值 有 
50% 以 上 属于 运动 目标 ， 则 认为 该 聚 类 为 运动 目标 。 利 用 交互 多 模型 (Interacting 
Multiple Model, IMM) 算法 估计 运动 目标 的 状态 并 估计 其 在 下 一 帧 中 的 位 置 ， 利 用 
多 假设 跟踪 (Multiple Hypothesis Tracking, MHT) 进行 数据 关联 。 实 验 结果 显示 ， 
该 系统 能 够 在 城市 道路 中 高 速 运动 的 平台 上 进行 多 种 类 别 的 目标 检测 和 跟踪 。 

德国 奥迪 公司 的 Bouzouraa 和 Hofmann 提出 了 一 种 栅 格 地 图 与 基于 模型 的 目标 

跟踪 相 融 合 的 环境 感知 系统 ， 利 用 激光 和 雷达 的 深度 信息 建立 栅 格 地 图 ， 并 在 栅 格 
地 图 中 检测 运动 目标 。 该 文中 通过 对 比 当 前 一 帧 测量 值 生 成 的 局 部 栅 格 地 图 和 通过 
时 间 累 积 融 合生 成 的 栅 格 地 图 检测 到 单元 格 的 动态 特性 ， 继 而 对 动态 单元 格 中 包含 
的 测量 值 进行 工 形 折线 拟 合 ， 并 提取 特征 向 量 来 识别 车 辆 目标 ， 而 且 实 现 了 地 图 
构建 和 运动 目标 跟踪 之 间 的 相互 促进 。 
斯 坦 福 大 学 Thrun 等 提出 了 一 种 应 用 于 高 速 运 动 的 平台 上 的 基于 模型 的 车 辆 识 
别 与 跟踪 系统 。 该 系统 将 激光 雷达 的 深度 信息 映射 到 基于 极 坐标 系 的 栅 格 地 图 中 ， 
通过 连续 两 帧 栅 格 地 图 的 不 同 之 处 来 检测 运动 目标 。 但 所 建立 的 栅 格 地 图 只 与 当前 
采集 到 的 一 帧 深度 信息 有 关 ， 未 采用 推理 算法 与 之 前 的 栅 格 状态 进行 融合 ， 因 此 不 
能 处 理 传感器 数据 傍 来 的 不 确定 性 。 


8.1.2 国内 研究 现状 


目前 我 国 开展 无 人 自主 驾驶 汽车 研究 课题 的 机 构 主 要 是 一 些 高 校 和 科研 单位 ， 
如 国防 科技 大 学 、 西 安 交 通 大 学 、 军 事 交 通 学 院 、 中 科 院 、 清 华 大 学 、 北 京 理 工大 
学 等 。 课 题 的 主要 导向 是 在 非 结 构 、 复 杂 化 场景 以 及 全 天 候 场景 下 的 无 人 自主 驾驶 
汽车 实用 化 技术 方法 ， 以 及 基于 多 传感器 信息 融合 的 无 人 自主 驾驶 汽车 复杂 系统 的 
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和 鲁 棒 性 研究 。 最 具 代 表 性 的 典型 系统 包括 国防 科技 大 学 的 无 人 自主 汽车 CITAVT - 
IV 及 其 与 一 汽 集 团 合作 的 HQ3 无 人 自主 驾驶 汽车 ， 西 安 交 大 的 Springrobot 无 人 自 
主 驾 驶 汽车 ,清华 大 学 的 THMR 系列 无 人 自主 驾驶 汽车 。 

上 海 交 通 大 学 甘 志 梅 等 通过 提取 目标 的 直线 与 直角 特征 来 识别 车 辆 目标 ， 从 而 
克服 了 目标 形状 变化 对 识别 结果 的 干扰 。 但 该 算法 采用 固定 距离 阀 值 的 方法 进行 聚 
类 ， 在 聚 类 过 程 中 会 丢失 远 处 和 人 射 角 较 小 的 目标 上 的 点 ， 不 仅 影响 到 特征 提取 的 准 
确 性 ， 而 且 在 后 续 的 目标 跟踪 过 程 中 会 产生 较 大 的 测量 误差 。 

吉林 大 学 赵 一 兵 等 采用 激光 雷达 的 成 像 技术 在 越野 环境 下 检测 水 面 、 和 斜坡 、 树 
木 以 及 西 出 的 石头 等 静态 的 障碍 物 ， 这 种 方法 的 实时 性 问题 还 有 竺 解决。 国防 科学 
技术 大 学 刘 大 学 等 则 通过 对 四 线 激光 雷达 的 测量 值 进行 聚 类 分 析 ， 检 测 越野 环境 下 
的 静止 障碍 物 ， 实 现 了 车 辆 以 5 ~ 20km/h 的 速度 在 中 等 起 伏 的 非 结构 化 越野 环境 
中 的 自主 彼 驶 ， 但 未 考虑 环境 中 存在 运动 目标 的 情况 。 

浙江 大 学 杨 飞 等 采用 三 维 激光 雷达 对 道路 区 域 建立 栅 格 地 图 ， 通 过 对 单元 格 内 
测量 值 的 最 大 高 度 差 来 判断 单元 格 是 否 被 占据 ， 通 过 对 占据 的 单元 格 进行 聚 类 、 特 
征 提取 来 检测 各 种 形状 的 障碍 物 。 最 终 通过 卡尔 曼 滤波 器 和 多 假设 跟踪 实现 对 道路 
区 域内 的 多 个 障碍 物 的 跟踪 。 这 种 方法 所 得 到 的 栅 格 地 图 只 和 当前 一 帧 深度 信息 有 
关 ， 不 能 处 理 传感器 数据 的 不 确定 性 。 

北京 理工 大 学 关 超 华 等 结合 车 辆 行驶 的 实际 环境 ， 提 出 了 一 种 基于 改进 DB- 
SCAN 快速 聚 类 算法 的 激光 雷达 车 辆 探测 方法 。 建 立 激 光 雷 达 与 摄像 机 传感器 坐标 
与 车 辆 坐标 之 间 的 转换 模型 ， 进 行 数 据 融 合 ， 通 过 改进 DBSCAN 算法 对 雷达 数据 
进行 去 噪声 和 聚 类 处 理 ， 根 据 车 辆 在 激光 雷达 探测 中 的 形状 特征 模型 进行 形状 匹 
配 ， 实 时 完成 车 辆 探测 ， 并 将 探测 结果 投影 至 图 像 上 。 西 安 电 子 科技 大 学 的 杜 兰 等 
利用 目标 方位 信息 基本 不 改变 类 内 距离 ， 但 可 以 增 大 类 间距 离 ， 从 而 提高 雷达 距离 
像 识别 性 能 。 

西安 电子 科技 大 学 杜 兰 等 基于 散射 点 模型 理论 ， 提 出 了 一 种 利用 距离 像 幅 度 起 
伏特 性 的 特征 提取 方法 ， 提 取 的 加 权 距 离 像 特征 反映 了 各 个 距离 单元 内 目标 散射 点 
的 分 布 情况 ， 可 以 更 好 地 描述 目标 散射 特性 。 清 华 大 学 王 肖 等 针对 车辆 目标 点 云 受 
观测 点 位 置 和 自 遮 挡 等 因素 的 影响 ， 提 出 一 种 动态 参考 点 模型 用 于 计算 目标 速度 ，; 
对 于 目标 航向 角 ， 采 用 先 点 云 分 块 聚 类 后 主 成 分 拟 合 的 思路 来 提高 航向 角 精 度 ; 提 
出 一 种 基于 几何 形状 变化 速率 的 滤波 算法 来 解决 几何 形状 不 易 测 量 和 复杂 多 变 等 
问题 。 

军事 交通 学 院 苏 致 远 等 为 有 效 检测 道路 中 的 障碍 物 , 识别 其 中 的 车 辆 目 
标 ， 采 用 雷达 相 邻 扫描 点 的 距离 特征 分 割地 面 ， 利 用 DBSCAN 聚 类 方法 对 障碍 
物 聚 类 ， 利 用 IEPF 算法 分 割 和 拟 合 障碍 物 轮廓 曲线 ， 最 后 结合 多 个 判 据 实现 
车 辆 目标 检测 。 
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8.2 车 载 激光 雷达 


工作 在 红外 和 可 见 光 波段 的 雷达 称 为 激光 雷达 (Light Laser Detection and Ran- 
ging，LIDAR)， 又 可 以 称 为 激光 探测 及 测 距 系统 。 它 是 用 激光 器 作为 发 射 光源 ， 
由 发 射 系统 、 接 收 系统 、 信 息 处 理 等 部 分 构成 。 它 是 激光 技术 、 大 气 光学 技术 和 雷 
达 技 术 结 合 的 产物 。 

车 载 激光 雷达 是 指 安装 在 自主 车 上 的 用 于 自主 车 导航 的 激光 测 距 雷达 。 根 据 扫 
描 机 构 的 不 同 ， 可 以 分 为 单线 扫描 激光 雷达 、 多 线 扫描 激光 雷达 和 面 阵 激 光 雷 达 。 
单线 扫描 激光 雷达 只 有 一 条 扫描 线 ， 通 过 旋转 扫描 得 到 一 条 线 上 的 深度 信息 ， 如 德 
国 SICK 光电 设备 公司 研发 的 LMS 系列 激光 雷达 ; 多 线 扫描 激光 雷达 通过 多 条 扫描 
线 的 旋转 扫描 ， 得 到 多 条 线 上 的 深度 信息 ， 如 德国 IBEO 公司 的 LD ML 激光 雷达 和 
美国 Velodyne 公司 的 64 线 /32 线 激光 雷达 为 面 阵 激 光 雷 达 ， 扫 描 的 则 是 一 个 面 ， 
得 到 一 个 面 上 的 深度 信息 。 图 8- 1 所 示 为 三 种 典型 激光 雷达 的 传感器 。 表 8-1 是 这 
三 种 典型 激光 传感器 的 性 能 参数 。 














和 8-1 三 种 典型 激光 雷达 的 传感器 








表 8-1 三 种 典型 激光 传感器 的 性 能 参数 









































传感器 | 探测 领域 | 范围 | a | 精度 
ei 水 平视 场 180。， 垂 直 视 场 | 水 平角 度 分 辨 | 距离 精度 
291 -S05 LIDAR | 激光 ;移动 器 、 人 导航 (hea ABE: 
0. 9" ， 最 远 探测 距离 80m 率 0.5。 lem 
(LMS) (单线 ) 
IBEO LUX LIDAR] 905nm 激光 ; 移动 器 、 水 平视 场 85°*， 垂 直 视 场 TA A 距离 精度 : 
apes 0.125°; 垂直 角 分 辩 
(4 线 ) 人 导航 3. 2" ， 最 远 探测 距离 200m 10cm 
3.0. 8° 
水 平视 场 360。， 垂 直 视 场 
Velodyne ity 7 26.8°; 探测 距离 : 50m (对 水 平角 度 分 辩 率 F 
HDL -64 LIDAR a EERE 路 面 反射 率 约 0.1)，120m|0.09。; 垂直 角 分 辩 ois 
(HDL) (64 2) j (对 汽车 和 植物 反射 率 约 | 率 0.4。 ee, 


0. 8) 
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车 载 激 光 雷 达 的 基本 测 距 原 理 都 是 测量 发 射 光束 与 从 被 测 物 体 表面 反射 光束 的 
时 间 差 ， 通 过 时 间 差 和 光速 来 计算 被 测 物体 到 激光 雷达 的 距离 : 距离 = 时 间 差 x 光 
速 =2。 而 测量 时 间 差 又 有 三 种 不 同 的 技术 。 

O 脉冲 检测 法 : 直接 测量 反射 脉冲 与 发 射 脉冲 之 间 的 时 间 差 (time - of - 
flight, TOF) 。 早 期 雷达 均 用 显示 器 作为 终端 ， 在 显示 需 画 面 上 根据 扫 掠 量程 和 回 
波 位 置 直接 测 读 延 玉 时间。 现代 雷达 常常 采用 电子 设备 自动 地 测 读 回 波 到 达 的 延迟 
时 间 。 

口 相干 检测 法 : 通过 测量 调频 连续 波 (Frequency - Modulated Continuous — 
Wave, FMCW) 的 发 射 光束 和 反射 光束 间 的 差 频 来 测量 时 间 差 。 

口 相 移 检 测 法 : 通过 测量 调幅 连续 波 (Amplitude - Modulated Continuous — 
Wave, AMCW) 的 发 射 光 束 和 反射 光束 间 的 相位 差 来 测量 时 间 差 。 

由 于 相位 差 的 2 周期 性 ， 这 一 方法 测 得 的 只 是 相对 距离 ， 而 非 绝 对 距离 ， 这 
是 AMCW 激光 成 像 雷 达 (LIRS) 的 重大 缺陷 。 其 中 2m 相位 差 所 对 应 的 距离 称 为 
多 义 性 间距 (Ambiguity Interval) 。 


8.2.1 激光 雷达 目标 检测 


近年 来 研究 关于 激光 雷达 的 目标 检测 问题 ， 目 标 对 象 主 要 是 行人 和 和 车辆。 目标 
检测 的 核心 问题 在 于 如 何 研究 出 有 效 的 特征 模型 。 
目标 检测 的 难点 : 如 何在 复杂 环境 下 准确 提取 出 令 人 感 兴趣 的 物体 区 域 即 障碍 
物 分 割 ; 被 测 物体 在 不 同 距离 、 不 同 观察 角度 ， 斥 度 形状 变化 较 大 ， 并 且 在 较 远 距 
离 传感器 的 分 辩 率 受到 限制 ;物体 自身 的 遮挡 和 别 的 物体 遮挡 ， 往 往 导 致 缺失 部 分 
信息 ; 环境 干扰 ， 有 较 多 形状 相似 的 其 他 物体 ， 单 纯 的 几何 方法 几乎 无 能 为 力 。 因 
此 ， 很 难 获得 某 种 固定 的 模式 来 进行 有 效 的 目标 检测 。 

目标 检测 方法 大 致 可 以 分 为 两 大 类 : 基于 模版 匹配 的 方法 和 基于 特征 描述 的 机 
器 学 习 方法 。 前 者 一 般 研究 特定 目标 的 几何 模型 ， 然 后 计算 被 检测 物体 和 给 定 模 版 
的 相似 程度 来 判别 ; 后 者 是 研究 目标 的 有 效 特 征 描 述 ， 通 过 SVM 、AdaBoost 、 神 经 
网 络 等 机 天 学 习 方法 来 训练 特定 的 分 类 器 ， 从 而 达到 目标 识别 。 
显然 基于 模版 匹配 方法 的 优点 是 简单 直观 ， 容 易 实现 ; ee 4 Bel H ER 
或 形状 变化 较 大 时 ， 很 难 用 统一 的 模型 来 描述 。 在 国内 外 无 人 车 实际 系统 中 ， 常 基 
于 矩形 框 模型 进行 车 辆 检测 ， 提 取 甜 形 框 中 的 障碍 分 布 形状 ， 比 如 “L” 形 、“1I” 
形 等 几何 特点 。 与 此 同时 ， 为 了 提高 检测 准确 率 ， 往 往 会 利用 视觉 模块 检测 得 到 的 
二 维 道 边 ， 将 目标 检测 限定 在 道路 内 进行 。 这 样 可 以 去 除 道路 外 的 干扰 ， 使 得 最 终 
实际 检测 效果 比较 好 。Petrovskaya 等 人 提出 了 车 辆 检测 跟踪 的 几何 运动 模型 ， 在 
2D 栅 格 上 采用 和 矩形 的 长 守 、 中 心 点 来 描述 车 辆 几何 信息 ， 同 时 依据 连续 三 帧 运动 
位 移 差 来 描述 运动 特性 ， 最 后 结合 3D 雷达 点 云 佑 计 地 面 高 度 。 在 2D 栅 格 中 只 
BIRF 2m 的 障碍 块 ， 过 滤 一 些 大 树 等 干扰 ， 来 提高 检测 准确 率 。 在 有 电子 地 图 和 
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道路 边 约束 的 情况 下 ， 此 方法 有 很 高 的 车 辆 检测 率 ， 但 对 于 环境 中 类 似 车 辆 的 物 
体 ， 就 很 难 有 稳定 的 检测 率 。 

目前 研究 目标 检测 方法 更 多 的 是 偏向 如 何 挖掘 有 效 特 征 ， 主 要 是 基于 特征 的 分 
类 。 它 是 将 原始 的 数据 信息 映射 到 对 应 的 特征 空间 中 ， 在 特征 空间 上 基于 机 器 学 习 
的 方法 处 理 ， 最 终 使 得 同类 的 类 内 间距 小 ， 而 不 同类 别 之 间 的 间距 大 ， 从 而 达到 较 
好 的 分 类 效果 。 因 此 ， 有 效 特 征 的 选取 和 分 类 需 学 习 的 策略 是 影响 分 类 效果 好 坏 的 
关键 因素 。 

一 般 目 标 检测 步骤 为 数据 获取 一 分 割 一 聚 类 一 特征 提取 一 分 类 。 利 用 机 器 学 习 
方法 ， 可 以 更 优化 地 组 合 各 个 特征 项 的 权 值 ， 大 大 提高 检测 的 准确 性 。Hui - jing- 
Zhao 等 人 提出 用 单线 激光 雷达 利用 类 似 决 策 树 判 别 的 方法 进行 目标 检测 ， 根 据 获 
取 雷 达 片 段 数据 流 特征 ， 第 一 层 依 据 障碍 片段 的 轴 边 数量 分 为 0 个 、1 个 、2 个 ， 
分 别 对 应 行人 和 其 他 ， 骑 车 的 人 和 其 他 ， 车 辆 和 其 他 ; 在 第 二 层 采用 详细 分 类 模型 
精确 判别 ， 人 工 标记 建立 每 类 样本 和 所 属 类 的 相似 函数 ， 将 动态 障碍 物 分 类 成 行 
A, 一群 人 、 骑 车 的 人 和 车 辆 。Taketoshi Mori kopkaet 等 人 提出 在 单线 雷达 上 根据 
运动 障 但 连续 贴 栅 格 点 的 轨迹 特征 来 检测 和 识别 物体 ， 利 用 标记 样本 提取 特征 来 训 
练 分 类 器 。 

单线 激光 雷达 只 能 得 到 物体 的 一 个 横 截 面 ， 不 能 得 到 较 完 整 的 立体 信息 ， 因 此 
引入 了 三 维 激光 雷达 ， 以 美国 生产 的 Velodyne - HDL - 64E 雷达 使 用 最 为 广泛 。 
Himmelsbach 等 人 在 三 维 激光 雷达 点 云 上 提出 物体 整体 强度 特征 ， 利 用 高 度 分 层 协 
方差 特征 值 等 特征 进行 动态 车 辆 检测 。Azim 等 人 提出 在 三 维 激 光 雷 达 数 据 上 ， 根 
据 分 割 出 来 的 障碍 矩形 块 ， 利 用 长 高 比 、 宽 高 比特 征 来 对 车 辆 和 行人 进行 分 类 ， 此 
方法 可 以 高 效 实时 检测 ， 但 在 实际 环境 中 常常 有 自身 的 遮挡 和 其 他 物体 遮挡 破坏 原 
来 长 宽 高 比例 的 特点 ， 就 不 能 有 较 好 的 区 别 。 

Velodyne -HDL -64E 不 仅 可 以 返回 三 维 点 云 信息 ， 还 可 以 得 到 反射 强度 值 。 
反射 强度 的 大 小 与 物体 的 材料 有 较 大 关系 。 因 此 ， 近 年 来 也 有 较 多 研究 者 挖掘 强度 
信息 上 的 特征 ， 来 进一步 提高 检测 的 鲁 棒 性 。 


8.2.2 激光 雷达 环境 感知 


激光 雷达 从 20 世纪 60 年 代 开始 得 到 了 快速 的 发 展 。 激 光 传 感 器 是 一 种 主动 传 
感 顺 ， 对 环境 的 感知 信息 来 源 于 上 自身， 因此 受 外 界 干扰 小 。 它 可 以 直接 获取 环境 中 
被 测 物 体 的 深度 信息 ， 通 过 激光 束 的 扫描 ， 能 够 为 自主 车 的 导航 提供 有 效 、 丰 富 的 
障碍 位 置信 息 。 

无 人 上 自主 车 是 激光 雷达 主要 的 实验 平台 。 无 人 自主 车 是 一 种 复杂 的 人 工 智能 系 
统 ， 主 要 由 环境 感知 模块 、 规 划 决 策 模块 和 运动 控制 模块 组 成 。 它 是 利用 车 载 传 感 
器 来 感知 车 体 周 围 环 境 ， 并 根据 感知 所 获得 的 障碍 物 、 道 路 和 自身 车 体 的 位 置信 
息 ， 由 规划 系统 给 出 路 径 点 和 速度 ， 并 由 控制 系统 控制 无 人 车 的 转向 和 速度 ， 最 终 
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使 得 无 人 车 能 够 安全 、 可 靠 地 行驶 。 图 8-2 是 典型 的 无 人 自主 车 系统 的 模块 架构 
框图 。 
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图 8-2 典型 无 人 自主 车 系统 架构 

















无 人 车 的 智能 程度 主要 取决 于 传感器 对 于 环境 的 感知 能 力 。 无 人 自主 车 在 复 杂 
环境 下 轰 驶 中 必须 要 面临 一 系列 非常 具有 挑战 性 的 环境 感知 问题 ， 比 如 道 边 检测 和 
跟踪 、 交 通 标志 和 交通 信号 灯 的 识别 、 障 碍 检测 、 目 标 检测 、 跟 踪 预 测 动态 障碍 物 
等 。 激 光 雷 达 在 无 人 车 中 的 主要 环境 感知 内 容 有 障碍 检测 、 动 态 障 碍 跟踪 、 目 标识 
别 、 同 步 建 图 (SLAM) 、 道 边 检测 等 。 

口 障碍 检测 是 激光 雷达 最 基本 也 是 最 重要 的 感知 能 力 ， 稳 定 检 测 障碍 信息 是 确 
Ci A ESE TERE SG Pan Se GRE. EEE A. TATED TT EK BL 
可 分 为 基于 栅 格 的 和 基于 图 的 两 种 。jJacoby Larson 提出 了 一 种 基于 顶 格 的 障碍 检测 
方法 ，ChunzhaoGuon 等 在 机 格 表示 的 基础 上 采用 了 马尔 可 夫 随 机 场 进行 全 局 优化 ; 
Dominik Steinhauser 等 使 用 RANSAC 平面 拟 合 对 数据 进行 分 割 |，; Frank Moosmann 提 
出 了 局 部 数据 块 法 向 量 聚 类 的 方法 进行 分 制 ， M. Himmelsbach 等 人 提出 了 先 用 网 
格 划分 再 用 各 射线 方向 直线 拟 合 来 判断 路 面 点 和 外 点 。 

O 基于 激光 雷达 的 动态 障碍 跟踪 是 在 障 得 检测 的 基础 之 上 ， 通 常 环 境 中 的 动态 
障碍 物 主要 是 行人 和 和 车辆。 动态 障 但 物 跟踪 的 一 般 步骤 是 : 数据 分 割 、 聚 类 、 数 据 
关联 跟踪 、 滤 波 吉 预测 更 新 。 动 态 障碍 的 判断 一 般 可 以 根据 相 邻 帧 障碍 物 的 位 移 差 
以 及 无 人 车 自身 GPS 的 位 移 信 息 来 判断 。 另 外 障碍 物 是 动态 还 是 静态 也 可 以 由 训 
米 小 雷达 提供 的 二 维 位 置 坐标 和 速度 来 融合 确定 。 在 描述 障 但 物 方式 上 ， 一 般 有 盒 
子 模型 和 点 模型 。 盒 子 模型 可 以 很 方便 地 表示 障碍 物 的 大 小 、 人 位置、 速度 信 息 ， 因 
此 大 多 系统 会 采用 盒子 模型 来 描述 障碍 物 。 常 用 的 数据 关联 算法 有 最 近邻 法 、 联 合 
概率 数据 关联 法 、 多 假设 跟踪 等 。 最 近邻 数据 关联 算法 是 由 Singer 等 在 1971 年 提 
出 的 。 该 算法 的 大 致 思想 是 ， 优 先 选 取 落 在 相关 跟踪 门限 阔 值 ， 同 时 与 跟踪 目标 预 
测 位置 最 接近 的 检测 目标 作为 其 关联 对 象 。 最 近邻 法 实际 上 是 一 种 局 部 最 优 的 贪 焚 
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算法 ， 它 并 不 能 保证 数据 关联 的 结果 达到 全 局 最 优 。 联 合 概率 数据 关联 算法 是 由 
Shalom 等 人 在 概率 数据 关联 (Probability Data Association) 算法 的 理论 基础 上 提出 
来 的 ， 毕 合 考虑 跟踪 门限 阀 值 内 的 所 有 检测 目标 的 概率 。 多 假设 跟踪 是 一 种 最 大 后 
验 概率 估计 器 ， 结 合 了 最 近邻 算法 以 及 联合 概率 数据 关联 的 优点 。 

OD 基于 激光 雷达 的 目标 识别 ， 大 致 可 以 分 为 基于 模版 匹配 的 方法 和 基于 特征 描 
述 的 方法 。 基 于 模版 匹配 的 方法 一 般 研 究 特 定 目标 的 模型 ， 然 后 通过 计算 被 检测 物 
体 和 给 定 模版 的 相似 程度 来 判别 。 而 基于 特征 描述 的 方法 ， 则 主要 研究 如 何 提取 障 
碍 物 的 有 效 特 征 。 单 线 激光 雷达 的 目标 识别 采用 片段 的 轴线 特征 来 分 类 ， 而 由 于 多 
线 激光 雷达 可 以 获取 丰富 的 三 维 障碍 信息 ， 因 此 更 多 研究 是 基于 点 云 分 布 和 强度 分 
布 特征 来 分 类 的 。 对 于 特征 提取 的 研究 大 致 有 三 方面 : 几何 形状 、3D 点 云 分 布 和 
反射 强度 概率 分 布 。 在 基于 特征 提取 分 类 中 ， 目 前 较 多 研究 采用 机 器 学 习 的 方法 ， 
手工 标记 样本 训练 特定 的 分 类 器 。 准 确 的 目标 识别 一 方面 可 以 提供 更 加 丰富 的 障碍 
言 息 给 路 径 规划 ， 另 一 方面 也 可 以 减少 目标 跟踪 匹配 中 的 干扰 。 

口 路 边 (curb) 检测 不 同 于 障碍 检测 ， 路 边 一 般 是 指 机 动车 和 人 行道 的 分 割 边 
界 ， 是 机 动车 辆 驾驶 的 一 种 交通 限制 线 。 路 边 检 测 的 研究 有 基于 相机 视觉 传 感 带 和 
基于 激光 雷达 点 云 特征 。Oniga 等 人 利 
用 立体 视觉 和 Canny 算法 来 寻找 路 边 。 
Gangqiang Zhao 等 人 利用 三 维 激光 雷达 
点 云 中 三 个 空间 线索 : 高 度 差 距 、 梯 度 
值 、 法 向 量 的 方向 ， 通 过 拟 合 抛物 线 模 
型 进行 稳定 的 路 边 检 测 和 跟踪 。 

激光 雷达 在 无 人 自主 车 平台 上 的 成 
功 使 用 ， 足 以 显示 出 其 在 地 面 无 人 自主 
车 智能 导航 中 的 至 关 重 要 的 地 位 。 激 光 
雷达 1 + 2 融合 扫描 多 盖 范围 如 图 8-3 
所 示 ; IBEO 激光 雷达 4 + 2 融合 系统 如 图 8.3 激光 雷达 1+2 融合 扫 措 
图 8-4 所 示 。 覆盖 范围 示意 图 


8.2.3 激光 雷达 的 优势 


传统 的 距离 探测 方法 是 使 用 无 源 技术 ， 如 立体 视觉 。 而 激光 雷达 之 所 以 在 无 人 
驾驶 系统 中 扮演 越 来 越 重 要 的 角色 ， 主 要 是 因为 它 与 摄像 机 等 其 他 传 感 顺 相 比 具有 
以 下 优势 : 

口 激光 雷达 采用 主动 测 距 法 ,接收 到 的 是 物体 反射 的 自己 发 出 的 激光 脉冲 ， 从 
而 使 得 激光 雷达 对 环境 光 的 强 弱 和 物体 色彩 差异 具有 很 强 的 鲁 棒 性 。 

O 激光 雷达 直接 返回 被 测 物体 到 雷达 的 距离 ， 与 立体 视觉 复杂 的 视差 深度 转换 
算法 相 比 更 为 直接 ， 而 且 测 距 更 为 准确 。 









































169 


ooo 视频 图 像 处 理 与 性 能 优化 





JIbeo LUX 


» | ‘ee 
~i tie 
l 
” 
I 


` 

eN 
OS 
' 


特征 : MEAR H pR BIE rr 


De SSS 














Al 8-4 IBEO 激光 雷达 4 +2 融合 系统 


口 对 于 飞 点 单线 或 多 线 扫 描 激光 雷达 ， 它 每 帧 只 返回 几 百 到 几 千 个 扫描 点 的 程 
距 ， 与 摄像 机 每 帧 要 记录 百 万 级 像素 的 信息 相 比 ， 速 度 更 快 ， 实 时 性 更 好 。 

口 激光 雷达 还 具有 视角 大 、 测 中 范围 大 等 其 他 优点 。 

但 同时 ， 激 光 雷 达 因 为 结构 复杂 ， 价 格 高 ， 使 得 其 在 自主 驾驶 上 的 应 用 受到 很 
大 的 限制 。 近 年 来 ,快速 的 飞 点 单线 或 多 线 扫描 激光 雷达 发 展 很 快 。 这 类 激光 雷达 
在 获取 障碍 物 的 几何 形状 上 能 力 不 足 ,但 是 其 快速 的 信息 采集 速度 和 较 小 的 系统 误 
差 十 分 适合 自主 驾驶 中 较 高 的 实时 性 要 求 和 复杂 工作 环境 的 要 求 。 


8.2.4 Velodyne 三 维 激光 雷达 


目前 ， 在 智能 车 上 安装 的 雷达 种 类 繁多 ， 主 要 有 单线 激光 雷达 、 多 线 激光 雷达 
及 三 维 激光 雷达 等 。 它 们 可 实现 多 种 功能 .障碍 物 检 测 、 道 路 检测 、 目 标 跟踪 等 。 
单线 或 多 线 激光 雷达 只 能 完成 相对 简单 的 功能 ， 如 测试 距离 、 障 碍 物 检 测 等 ， 而 利 
用 它们 进行 更 复杂 的 三 维 建 模 、 地 图 构建 等 功能 比较 困难 。 因 此 ， 三 维 激光 雷达 的 
引入 ， 可 以 真正 满足 无 人 驾驶 智能 车 对 环境 理解 和 地 图 构建 的 要 求 ， 具 有 典型 代表 
性 的 三 维 激光 雷达 为 美国 Velodyne 公司 生产 的 64 线 激光 雷达 和 32 线 激光 雷达 。 其 
传感器 如 图 8-5 和 图 8-6 所 示 。 该 激光 雷达 采用 电动 机 旋转 的 方式 来 采集 数据 ， 用 
来 探测 周围 360° 范 围 内 的 障碍 物 情况 。 如 表 8-2 和 图 8-7 所 示 ， 以 64 线 激 光 雷 达 
为 例 ，64 线 激光 雷达 由 上 下 两 组 各 32 条 扫描 线 组 成 ， 并 且 上 下 各 有 一 个 激光 接收 
器 镜面 ， 每 条 扫描 线 有 其 固定 的 俯仰 角 。64 线 激光 雷达 传感器 探测 范围 ， 水 平视 
场 360"， 垂 直 视 场 26. 8"。 探 测 距 离 : 根据 不 同 的 激光 反射 率 ， 探 测 距 离 不 同 ， 
50m (对 路 面 反 射 率 约 0.1)，120m (对 汽车 和 植物 反射 率 约 0.8); 角度 分 辩 率 : 
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0.09°; 距离 精度 : 1. 5cm。 





图 8-5 64 线 激光 雷达 图 8-6 32 线 激光 雷达 











图 8-7 雷达 扫描 范围 


表 8-2 64 线 雷 达 相 关 数 据 














尺寸 识别 周期 识别 距离 (厂家) 
203mm x203mm x437mm 100ns 70m 26. 8° 360° 





H 
FA 
































E (厂家 ) 水 平角 (厂家) 





8.3 ”激光 雷达 数据 处 理 算法 


8. 3.1 激光 雷达 数据 获取 及 解 包 


三 维 激光 雷达 的 数据 是 以 UDP 广播 包 的 方式 接收 的 ， 并 通过 解 包 从 而 获得 所 
需要 的 点 云 数据 。 其 流程 图 如 图 8-8 所 示 。 

1. UDP 协议 

三 维 激光 雷达 的 数据 是 以 UDP 广播 包 的 方式 接收 的 。UDP 协议 为 非 面向 连接 
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T T T 
| | | 

UDP 接收 | WELARTEN, YZ | 运用 | 

| | | 

二 TH 1 

| | | 

通过 UDP | 解析 转化 字 WY Be | 进一步 的 | 
接收 数据 组 从 而 获得 点 去 数据 数据 处 理 | 
4 l 4 


图 8-8 点 云 数 据 获 取 流 程 图 


的 协议 ， 数 据 的 发 送 与 接收 并 不 需要 像 TCP/IP 协议 那样 事先 建立 连接 ， 其 次 UDP 
以 数据 包 的 形式 接收 数据 ， 因 此 其 速度 远 高 于 TCP/AIP。 雷 达 接 收 数据 具体 原理 如 
图 8-9 所 示 。 


架设 局 域 网 需 达 扫描 狼 到 数据 抓 让 UDP 数据 包 





图 8-9 雷达 接收 数据 原理 图 


2. 数据 解 包 
三 维 激光 雷达 的 数据 是 在 局 域 网 络 内 以 UDP 广播 包 的 方式 发 送 的 。 激 光 雷 达 
数据 包 的 格式 ， 每 个 数据 包 的 大 小 为 1206B， 该 数据 包 包 含 12 个 100B 的 数据 块 ， 
以 及 最 后 6B 的 其 他 信息 。 激 光 雷 达 UDP 数据 包 的 信息 见 表 8-3。 
#8-3 激光 雷达 UDP 数据 包 信息 
























































数据 大 小 /B 数据 内 容 
2 头 信息 ， 对 应 上 32 根 雷 达 线 或 下 32 根 雷 达 线 
2 旋转 角度 信息 (0 ~359. 99° ， 精 度 0. 09°) 
ae 32 根 雷达 扫 撒 数据 (每 根 3B: 包括 2B 的 距离 信息 ， 精 度 为 2mm; 1B 的 强度 信 
息 ， 用 0 ~255 表示 ) 
2 旋转 圈 数 计数 (0 ~65535) 
4 版 本 信息 








3. 坐标 系统 和 坐标 系 变换 

建立 坐标 系统 和 坐标 系 变换 是 建立 栅 格 地 图 的 基础 。 因 为 激光 雷达 固有 的 复杂 
的 几何 模型 以 及 激光 雷达 在 车 体 上 安装 有 一 定 的 灵活 性 ， 所 以 利用 车 载 激光 雷达 数 
据 建立 栅 格 地 图 往往 要 建立 复杂 的 坐标 系统 ， 并 且 要 完成 程 距 数据 在 坐标 系 之 间 的 
转换 。 

在 构建 栅 格 地 图 的 过 程 中 共用 到 三 个 直角 坐标 系 和 一 个 极 坐标 系 ， 其 中 三 个 直 
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角 坐 标 系 都 是 右手 坐标 系 。 

O 地面 坐标 系 OXYZ。 地 面 坐 标 系 又 称 志 界 坐标 系 ， 是 相对 固定 的 坐标 系 ， 全 
局 的 栅 格 地 图 是 在 地 面 坐 标 系 里 建立 的 。 定 义 坐 标 系 原点 0 为 地 表面 上 的 某 一 个 
初始 点 ,为 地 理 东 方 , 了 为 地 理 北 方 ，Z 垂直 水 平面 向 上 。 

O 车 体 坐 标 系 0.X.Y.Z.。 和 车 体 坐 标 系 随 车 一 起 运动 。 定 义 坐 标 系 原点 0。 为 车 
体 上 的 某 个 固定 点 ,XX. 为 车 正 前 方 ,， 7 了 ,为 车 左 方 ，2Z. 为 车 上 方 。 

O 雷达 直角 坐标 系 0,X,Y,2Z,。 雷 达 直 角 坐 标 系 与 雷达 固 连 ,定义 坐标 系 原点 
0, 为 雷达 上 的 某 个 初始 点 ,XX, 为 雷达 主轴 线 方向 ，7 了 ,为 雷达 左 方 ，2, 为 雷达 上 方 。 

O 雷达 极 坐标 系 (p,09) 。 雷 达 极 坐标 系 并 不 是 雷达 直角 坐标 系 的 简单 极 坐 标 
化 的 结果 。 雷 达 极 坐标 系 与 程 距 数 据 相 对 应 ， 因 为 在 不 同 的 扫描 线 上 就 有 不 同 的 俯 
角 ， 所 以 与 雷达 直角 坐标 系 之 间 就 有 不 同 的 转换 结果 。 极 坐标 原点 与 雷达 直角 坐标 
系 原 点 0, 重合， 如果 忽略 同一 条 扫描 线 在 不 同 扫描 角度 上 不 共 面 的 问题 ， 则 极 轴 
可 以 近似 地 理解 为 扫描 线 在 0° 扫描 角 的 方向 。 

激光 雷达 的 原始 程 距 数据 是 在 激光 雷达 极 坐标 系 下 获得 的 ， 而 越野 环境 下 的 栅 
格 地 图 则 需要 在 地 面 坐 标 系 中 建立 ， 多 帧 的 程 距 数 据 只 能 在 地 面 坐 标 系 才能 达到 统 
一 。 根 据 需要 ， 坐 标 系 变换 应 该 包括 雷达 极 坐标 系 到 雷达 直角 坐标 系 、 雷 达 直 角 坐 
标 系 到 车 体 坐 标 系 和 车 体 坐 标 系 到 地 面 坐 标 系 的 变换 。 

(1) 雷达 极 坐标 系 到 雷达 直角 坐标 系 的 变换 

雷达 极 坐标 系 到 雷达 直角 坐标 系 的 变换 要 借助 于 激光 雷达 的 几何 模型 来 进行 ， 
雷达 极 坐标 系 中 坐标 为 (p,6) 的 扫描 点 在 雷达 直角 坐标 系 中 的 坐标 为 
Nr | p(cosacos@ + sinasin20) 



































三 = | Y, p( cosasinð + sinasingcosO) 





z psinacos0 


0. 02094(1.2°) 第 一 条 线 
0. 006981(0.4°) 第 二 条 线 
- 0. 006981 ( - 0. 4°) 第 三 条 线 
- 0.02094( - 1.2。) 第 四 条 线 
(2) 雷达 直角 坐标 系 到 车 体 坐 标 系 的 变换 
雷达 直角 坐标 系 到 车 体 坐 标 系 的 变换 需要 经 过 一 次 绕 y 轴 的 反 旋转 和 一 次 平移 
Ve 


操作 ， 变 换 公 式 如 下 : 
0 
= R,(- a) relo 
i ho 


式 中 ，R, 是 旋转 矩阵 ; R,( - ay) 表示 绕 y 轴 顺 时 针 旋转 aoo 
(3) 车 体 坐 标 系 到 地 面 坐标 系 的 变换 


SUP, a 是 四 扫描 线 校正 角 , a = 








Xe 


C= 
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越野 环境 下 车 体 颠 艇 得 比较 厉害 ， 车 在 行驶 过 程 中 相对 于 地 面 坐标 系 存在 着 偏 








航 角 、 俯 仰角 和 倾斜 角 ， 在 三 个 自由 度 上 都 需要 进行 变换 。 总 的 变换 过 程 需要 经 过 
三 次 旋转 和 一 次 平移 ， 如 图 8-10 所 示 。 
(22) 2 








图 8-10 车 体 坐 标 系 到 地 面 坐 标 系 的 变换 过 程 





引入 欧 拉 角 和 旋转 矩阵 : WIA h, AWANE; MAF, MANE; 倾斜 角 
q, 右倾 为 正 。 


1 0 0 cosa 0 -sina cosa sina 0 
R.(a) =|0 cosa sina |, R,(a) =] 0 1 0 |, R.(a) =| -sina cosa 0 


0 -sina cosa sina 0 cosa 0 0 1 


x 轴 Yi 轴 22 轴 
旋转 顺序 : oxyz = ora => yz => OXY 
倾斜 角 q MRA S ALIA FA h 
则 变换 公式 为 : C=R-c+0 
RIH, R =R,(-h) .RD +R, -9 
coshcosf, — sinhcosq - coshsinfsing, sinhsing - coshsinfcosq 
= Sinn coshcosq — sinfsing, — coshsing 一 inion 
sinf, cosfsing , cosfcosq 

O 是 车 体 坐 标 与 地 面 坐标 相对 平移 量 。 

处 理 需 从 局 域 网 络 上 获得 这 些 数 据 包 后 ， 就 需要 将 其 进行 转换 ， 即 从 距离 、 角 
度 信息 ， 通 过 内 外 参 的 标定 数据 转换 到 车 体 坐 标 系 。 根 据 内 参 标 定 得 到 的 文件 ， 进 
行距 离 、 角 度 信息 的 误差 校正 ， 其 中 包括 旋转 校正 角度 、 垂 直 校正 角度 EARE 
角度 、 垂 直 偏 移 因 子 以 及 水 平 偏 移 因子 等 。 在 得 到 相对 较为 准确 的 距离 角度 信息 
后 ,通过 下 列 公式 将 其 转化 为 雷达 坐标 系 下 的 三 维 位 置 点 (x,y,z)1 : 
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x 三 DcosQacosO 
y = pcosæsinð 
z =psina 
RP, p 为 三 维 点 距离 雷达 的 距离 ; a 为 该 点 所 在 的 雷达 线 的 俯仰 角 ， 即 垂直 方向 
的 角度 ; 9 为 水 平方 向 的 航向 角 。 
最 后 通过 外 参 标 定 得 到 的 旋转 矩阵 R 和 平移 矩阵 7 了 将 每 个 三 维 点 转化 为 车 体 


坐标 系 下 的 位 置 点 (x, y, z), o 
x] 
as 
a 
其 具体 实现 流程 如 图 8-11 所 示 。 


UDP 得 到 的 找到 每 个 字 节 
1206B 对 应 的 含义 


























Xy 


Y, +T 




















图 8-11 数据 解 包 流程 图 


8.3.2 激光 雷达 识别 障碍 物 


栅 格 地 图 最 早 是 由 Elfes 和 Moravec 提出 的 ， 后 来 被 扩展 了 ， 分 为 2D 栅 格 地 图 
和 3D 栅 格 地 图 。 它 们 的 共同 点 是 都 将 整个 环境 分 割 成 均匀 的 单元 栅 格 ; 不 同 的 是 
2D 栅 格 地 图 每 个 栅 格 只 有 两 种 状态 : 1 或 0， 而 3D 栅 格 地 图 每 个 单 格 的 值 代表 这 
个 格子 的 高 度 信息 ， 从 而 更 精细 地 表示 整个 环境 地 形 。 对 于 机 格 地 图 ， 环 境 空间 的 
分 辨 率 与 栅 格 尺寸 的 大 小 有 关 ， 要 想 增加 分 辩 率 ， 就 要 减 小 栅 格 的 尺寸 ， 同 时 也 将 
增加 运算 的 时 间 和 空间 复杂 度 ， 所 以 在 实际 应 用 时 要 权衡 车 辆 导航 需要 和 系统 运算 
能 力 来 合理 选择 栅 格 尺寸 。 

将 解 包 后 的 每 一 帧 数据 (大 约 有 13 万 个 点 ) 投影 到 顶 格 地 图 上 ， 再 进行 相关 
处 理 ， 从 而 得 到 障碍 物 信息 。 其 具体 流程 如 图 8-12 所 示 。 


























一 帧 13 方 个 点 Le UALS 发 送 决策 组 


图 8-12 ”障碍 物 检 测 流程 图 


1. 栅 格 投影 
建立 Mx N 的 机 格 地 图 ， 栅 格 大 小 是 G6。 在 此 我 们 定义 一 帧 为 激光 雷达 旋转 一 
周 内 所 获得 的 点 云 数据 。 将 三 维 点 投影 到 (x,，y) 栅 格 平面 上 ， 为 了 方便 统一 计 
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算 三 维 点 所 落 入 栅 格 的 位 置 ， 需 要 将 整体 的 x -y 坐标 值 都 转化 为 正 值 ， 因 此 需要 
E x -y 坐 标 值 上 增加 平移 量 (map,, map,) 。 栅 格 转化 
公式 如 下 所 示 : 





Row = ( y + map, )/G 
Col = (x + map, )/G 
栅 格 障碍 检测 方法 是 用 一 个 格子 来 表示 格子 中 的 三 

维 点 ， 在 后 续 的 目标 分 类 中 就 难以 充分 利用 原始 三 维 点 
云 信息 ， 因 此 需要 在 栅 格 化 的 同时 记录 下 每 个 落 入 的 三 
维 点 云 坐 标 和 强度 信息 。 图 8-13 所 示 为 障碍 栅 格 地 图 哈 
希 映射 3D 点 云 ， 这 种 哈 希 的 结合 方法 可 以 高 效率 地 建立 
由 栅 格 障碍 点 到 三 维 点 的 映射 关系 ， 以 便 在 后 续 车 辆 检 图 8-13 ”障碍 栅 格 地 图 
测 和 行人 检测 中 可 以 利用 栅 格 中 的 3D 点 云 信息 来 提取 障 哈 希 映射 3D 点 去 
碍 物 的 特征 。 其 具体 流程 图 如 图 8-14 所 示 。 
































建立 栅 格 地 图 














i 二 维 数 据点 信息 仓 入 到 棚 格 
MVEA 。 | | 地 图 F， 概 格 内 数据 量 加 


图 8-14 栅 格 投影 流程 图 
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2. 栅 格 处 理 

经 过 投影 之 后 ， 地 图 上 每 个 栅 格 包含 三 维 点 个 数 、 最 大 高 度 、 最 小 高 度 等 信 
息 。 数 据 处 理 时 遍历 每 个 栅 格 ,判断 该 栅 格 的 属性 。 属 性 分 为 可 通行 、 不 可 通行 和 
未 知 区 域 三 类 。 其 中 可 通行 属性 是 平坦 地 面 、 坡 面 等 ， 不 可 通行 属性 指 一 般 影响 智 
能 车 安全 行驶 的 障碍 物 ， 未 知 区 域 属性 表示 雷达 检测 盲点 。 

车 辆 在 非 结 构 化 道路 上 行驶 时 ， 智 能 车 会 发 生 其 艇 ， 影 响 俯 仰角 ， 导 致 障碍 物 
的 高 度 产 生 测量 误差 。 另 一 方面 ， 智 能 车 前 方 如 遇 到 一 个 大 的 上 坡 路 段 ， 虽 然 雷 达 
能 够 测量 到 有 一 定 高 度 的 物体 ， 但 实际 上 这 是 可 以 通行 的 。 故 本 系统 采用 相对 高 度 
的 概念 来 判断 栅 格 是 否 为 障碍 物 ， 这 样 一 方面 减 小 车 辆 颠 复 带 来 的 影响 ， 男 一 方面 
不 会 将 小 石 块 或 坡 面 判 定 为 障碍 物 。 其 具体 流程 如 图 8-15 所 示 。 


输入 栅 格 数据 










































计数 器 加 一 、 获 取 李 
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到 8-15 栅 格 处 理 流程 图 


























在 实验 过 程 中 ， 偶 尔 会 遇 到 少数 雷达 错误 反射 点 ， 而 这 些 错 误 点 往往 是 单 点 孤 
立 存在 的 ; 还 有 一 些 是 悬空 小 障碍 ， 如 悬 挂 的 树枝 、 小 飞 虫 等 ， 也 会 引入 一 些 障 得 
误 检 。 在 智能 车 路 径 规划 中 ， 知 是 碰 到 这 些 误 检 点 就 会 使 智能 车 紧急 制 动 ， 造 成 智 
能 车 无 法 通过 的 假象 。 

因此 在 实际 智能 车 系统 中 能 够 提供 可 靠 稳定 的 障碍 信息 是 非常 重要 的 ， 在 障碍 
栅 格 地 图 输出 之 前 必须 要 进行 悬空 点 滤 除 和 单 点 滤 除 ， 可 以 有 效 抑制 传 感 右 噪声 和 
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环境 噪声 干扰 。 

(1) Bas AUER 

统计 落 在 网 格 内 的 雷达 三 维 点 (x, 
y，z) ， 对 于 最 低 高 度 超过 2m 的 障碍 点 ， 
如 果 少 于 两 条 雷达 线 扫描 到 ， 便 被 视 为 «| 
悬空 点 ， 如 图 8-16 所 示 。 

(2) 单 点 障碍 滤 除 

在 近 处 小 于 20m 的 范围 内 ， 由 于 三 地 所 
维 激光 雷达 数据 是 致密 的 ， 障 碍 点 一 般 
都 是 成 堆 出 现 的 。 若 是 在 一 个 以 障碍 物 
网 格 为 中 心 的 7 x7 范围 内 没有 其 他 障碍 网 格 ， 只 有 点 单 点 障碍 ， 并 且 如 果 少 于 2 
条 雷达 线 扫描 到 ， 则 被 视 为 单 点 噪声 。 单 点 滤 除 领域 示意 图 见 图 8-17。 














网 格 


























图 8-16 悬空 点 示意 图 























图 8-17 单 点 滤 除 示意 图 


8.3.3 FA Hough 变换 进行 路 边 检测 


城市 环境 中 的 道路 一 般 比 较 直 ， 本 音 将 路 边 采 用 直线 模型 进行 拟 合 ， 本 文选 择 
Hough 变换 算法 进行 直线 提取 。 把 顶 格 地 图 看 成 一 幅 灰 度 图 像 ， 每 个 栅 格 就 是 一 个 
像素 ， 障 碍 顶 格 就 是 信息 点 ， 局 部 地 图 的 路 边 大 体 在 一 条 直线 上 ， 在 图 像 中 检测 这 
些 信息 点 的 直线 信息 ，Hough 变换 算法 是 很 好 的 方法 。Hough 变换 算法 的 思想 ， 就 
是 将 笛 卡 儿 坐标 系 下 的 所 有 信息 点 (包括 所 有 可 能 通过 该 点 的 直线 ) 变换 为 Hough 
参数 空间 中 的 相应 曲线 ， 那 些 在 笛 卡 儿 坐 标 下 组 成 一 条 直线 的 点 在 Hough 参数 空 
间 表 现 为 一 系列 有 公共 交点 的 正弦 曲线 。Hough 参数 空间 中 具有 最 大 的 正弦 曲线 的 
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相交 次 数 的 点 ， 对 应 为 笛 卡 儿 坐 标 系 中 具有 最 多 点 数 的 一 条 直线 。 在 笛 卡 儿 坐 标 系 
下 ， 任 何 一 条 直线 可 以 用 以 下 的 参数 方程 表示 : 
r=xcos0 +ysin0 (r=0, 0°<0<360° 或 reR, 0°<0<180°) 

r 和 9 这 两 个 参数 形成 一 个 参数 空间 ， 称 为 Hough 参数 空间 。 于 是 ， 通 过 改变 
描述 直线 的 参数 空间 ， 就 可 以 把 在 笛 卡 儿 空 间 的 一 条 线 描述 为 Hough 参数 空间 的 
一 个 点 。Hough 变换 的 一 般 步骤 为 : 

口 建立 Hough 参数 空间 的 合理 采样 。 

口 将 图 像 空间 中 的 所 有 目标 点 映射 到 Hough 参数 空间 。 

O 找 出 Hough 参数 空间 累加 器 中 的 最 大 值 。 

口 将 Hough 参数 空间 中 的 最 大 值 映 射 回 到 图 像 空间 中 ， 则 该 直线 就 是 在 图 像 空 
间 中 具有 最 显著 的 直线 特征 的 直线 (该 直线 的 组 成 像素 点 数 最 多 ) 。 

Hough 变换 是 使 用 得 最 成 功 的 直线 提取 算法 ， 选 择 Hough 变换 来 提取 直线 路 边 
的 主要 原因 是 : (DHough 变换 提取 直线 对 噪声 有 很 好 的 适用 性 ， 特 别 适合 于 存在 一 
定 噪 声 的 情况 下 提取 直线 ， 而 像 最 小 二 乘法 拟 合 直 线 很 容易 受到 噪声 的 影响 而 提取 
出 错误 的 结果 ; CHough 变换 从 整体 来 考虑 所 有 候选 点 的 分 布 ， 这 样 提取 出 的 直线 
考虑 了 更 多 的 全 局 信息 ， 即 使 路 边 被 障碍 物 (如 停 在 路 边 的 车 辆 ) 遮挡 ， 也 能 
获得 很 好 的 结果 ， 而 一 些 增 量 式 的 直线 提取 算法 考虑 更 多 的 是 局 部 的 候选 点 分 布 ， 
容易 产生 漏 检 。 当 然 Hough 变换 的 处 理 时 间 比 最 小 二 乘法 、 增 量 式 算法 、RANSAC 
算法 可 能 要 长 一 些 , 但 是 实际 提取 到 的 候选 路 边 点 的 数量 比较 少 ， 所 以 在 实时 性 上 
也 可 以 满足 实际 应 用 的 要 求 。 其 具体 流程 如 图 8-18 所 示 。 


图 8-18 ”路 边 检 测 流 程 图 





















































8.4 激光 雷达 数据 处 理 算法 优化 


8.4.1 栅 格 投影 优化 


激光 雷达 数据 是 大 量 的 随机 数据 ， 所 以 激光 雷达 数据 投影 栅 格 时 将 会 有 大 量 的 
访 存 。 其 一 ， 激 光 雷 达 数 据 是 随机 的 ， 无 法 确定 激光 雷达 数据 投影 所 在 顶 格 的 具体 
位 置 ， 因 此 无 法 利用 合并 访问 来 发 挥 CPU 独 有 的 优势 ， 其 二 ， 无 法 确定 激光 雷达 
数据 是 栅 格 内 第 几 个 数据 ， 需 要 通过 累加 来 计算 栅 格 内 数据 量 ， 这 将 影响 激光 雷达 
数据 之 间 的 并 行 性 ， 使 得 性 能 降低 。 所 以 ， 栅 格 投影 并 不 适合 放 入 GPU 优化 ,我 
们 采用 NVIDIA Tegra X1 ARM 处 理 器 来 处 理 该 过 程 。 

通过 上 述 分 析 ， 本 文 结合 ARM 的 运算 特点 ， 对 该 算法 主要 进行 两 方面 优化 。 
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1. 减 小 运算 强度 

利用 左 / 右 移 位 操作 代替 乘 / 除 2 运算 : 乘 以 2 的 需 次 方 或 除 以 2 的 客 次 方 通常 
都 可 以 通过 左 移 或 右 移 位 来 完成 。 实 际 上 乘 以 任何 一 个 整数 都 可 以 通过 移 位 和 加 
法 来 代 蔡 乘法 。Tegra X1 ARM 中 加 法 和 移 位 可 以 通过 一 条 指令 来 完成 ， 且 执行 时 
间 少 于 乘法 指令 。 例 如 : a = a x5 可 以 用 a = (a << 2) +a KRE, 

利用 逻辑 与 运算 代替 求 余 运 算 : 用 逻辑 与 (AND ) 指令 代替 求 余 操 作 (% ) 
来 提高 效率 。 例 如 : a = a&O x 07 可 以 用 来 代替 a = a%8。 

2. 优化 循环 终止 

Tegra X1 ARM 中 判断 条 件 在 一 个 循环 结构 中 ， 循 环 的 终止 条 件 将 严重 影响 循 
环 的 效率 ， 再 加 上 ARM 指令 的 判断 条 件 执行 特性 ， 所 以 在 编写 循环 终止 条 件 语句 
时 应 尽量 使 用 count - down -to -zero 结构 。 这 样 编译 器 可 以 用 一 条 BNE (若非 零 则 
跳 转 ) 指令 代替 CMP (比较 ) 和 BLE (车 小 于 则 跳 转 ) 两 条 指令 ， 既 减 小 代码 尺 
寸 ， 又 加 快 了 机 格 投 影 在 Tegra X1 ARM 上 的 运行 速度 。 


8.4.2 数据 传输 优化 


在 Tegra X1 平台 中 ， 虽 然 device 和 host 内 存 共 享 ， 但 是 device 端 与 host 端 之 
间 的 数据 传输 也 是 整个 算法 性 能 主要 瓶颈 之 一 。 内 存 分 为 pageable memory 和 
pinned memory。 如 图 8-19 所 示 ， 当 将 数据 从 host 传 到 GPU 时 ， 需 要 先 将 pageable 
memory 传 到 pinned memory, ， 所 以 pinned memory 无 论 是 device 与 host 还 是 device 
与 device ， 传 输 速率 都 远大 于 pageable memory 的 传输 速率 。 


pinned 
memory 























device device 

















host 


pageable 
pemorv 


host 





pinned 
memory 


Al 8-19 数据 传输 











以 NVIDIA Tegra X1 为 例 ， 传 输 32MB 的 数据 ， 在 pinned memory 上 host 传输 到 
device 的 传输 速率 的 带宽 为 9892. 3MB/s, device 传输 到 host 的 传输 速率 的 带宽 为 
10076. 1MB/s。 而 在 pageable memory E, host 传输 到 device 的 传输 的 实际 带宽 为 
2236. 1 MB/s device 传输 到 host 的 传输 的 实际 带宽 为 1958. 4MB/s, Mi device 之 间 
传输 的 实际 带宽 达到 17919.4MB/s。 因 此 ， 选 择 合适 的 内 存 可 以 实现 数据 传输 的 
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优化 。 
实际 上 ，CUDA 提供 一 种 允许 GPU 线程 直接 访问 host 端的 pinned memory 的 机 
制 ， 称 为 zero copy。 通 过 线程 与 底层 硬件 的 直接 映射 ， 可 以 减少 数据 传输 的 消耗 。 
栅 格 投影 后 的 栅 格 数据 量 非常 大 ， 如 果 采 用 通用 的 传输 方法 ， 则 其 占用 内 存 和 
时 间 消 耗 极 大 。 本 书 采 用 zero copy 的 方式 来 进行 数据 传输 ， 将 栅 格 投影 后 的 数据 
存放 在 pinned memory 上 ， 从 而 减少 数据 传输 的 消耗 。 


8.4.3 栅 格 处 理 优化 























1. 初步 算法 设计 
栅 格 处 理 是 以 栅 格 为 单位 进行 处 理 。 栅 格 之 间 毫 
无 依赖 关系 ， 具 有 良好 的 并 行 性 。 因 此 本 书 采用 一 个 


传输 栅 格 数据 到 GPU 


线程 负责 处 理 一 个 栅 格 的 方法 来 处 理 栅 格 数据 ， 这 种 
初步 算法 设计 比较 容易 实现 。 该 算法 设计 以 线程 作为 
基本 处 理 单元 ， 不同 的 线程 分 别 获取 对 应 的 栅 格 内 的 
言 息 ， 根 据 栅 格 内 的 信息 得 出 栅 格 的 相对 高 度 差 。 具 
体 算 法 设计 流程 如 图 8-20 所 示 。 

栅 格 内 数据 量 不 一 致 ， 若 采用 初步 算法 设计 的 方 
法 来 处 理 栅 格 数据 ， 将 导致 有 的 线程 任务 过 大 ， 造 成 


获取 对 应 栅 格 的 线程 索引 


获取 栅 格 内 数据 量 


获 皮 顶 格 内 数据 沿 度 ,并 炒 棚 格 内 
数据 高 度 的 最 小 值 ,使 用 ?: 语 名 
ARARIF else [FAY 


线程 间 的 负载 不 均衡 。 由 于 GPU 采用 SMT ( 单 指令 
多 数据 ，Signal Instruction Multiple Thread) 编程 模型 , 

其 调度 和 执行 的 基本 单位 是 varp, SENLERNE [imeona ana 
执行 时 间 最 长 的 线程 决定 。 因 此 ， 这 种 线程 间 的 负载 从 ， 并 求 其 最 大 什 

不 均衡 现象 可 导致 程序 性 能 的 极 大 降低 。 

图 8-21 显示 了 负载 不 均衡 的 现象 。 假 设 一 个 
warp 中 包含 9 个 线程 ， 每 个 线程 负责 处 理 一 个 栅 格 。 
如 图 8-21 所 示 ， 在 处 理 完 第 一 个 栅 格 数据 时 ， 所 有 
线程 都 处 于 忙碌 状态 ， 线 程 间 负载 均衡 。 然 而 ， 处 理 
第 二 个 栅 格 数据 后 ，(0,，0) 和 (1, 1) 负责 的 栅 格 
数据 已 经 处 理 完毕 。 那 么 在 处 理 第 二 到 第 四 个 栅 格 数据 时 ， 这 两 个 窗口 对 应 的 
(0, 0) 和 (1, 1) 线程 将 处 于 空 闪 状态， 直接 退出 。 更 为 严重 的 是 ， 随 着 处 理 过 
程 的 进行 ， 越 来 越 多 的 栅 格 处 理 完 毕 ， 也 就 意味 着 越 来 越 多 的 线程 退出 。 直 到 处 理 
到 最 后 一 个 栅 格 数据 时 ， 只 有 线程 (1，2) 还 处 于 活动 状态 ， 其 他 8 个 线程 都 已 
经 退出 ， 这 就 造成 了 这 9 个 线程 间 的 负载 不 均衡 现象 。 更 糟糕 的 是 ， 各 个 栅 格 数据 
量 差异 越 高 ， 所 需要 的 运算 量 就 越 大 。 这 种 线程 间 的 负载 不 均衡 现象 ， 特 别 对 采用 
多 线程 调度 机 制 (warp) 的 GPU 来 说 ， 会 严重 浪费 其 计算 资源 ， 进 而 严重 制约 算 

















计算 太 输出 相对 高 度 





图 8-20 线程 (Thread) 
处 理 栅 格 
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法 在 CPU 上 的 性 能 。 
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图 8-21 栅 格 处 理 初始 GPU 版 本 的 负载 不 均衡 现象 


2. 粗 粒 度 并 行 

ZE, HMA thread 是 并 行 的 ， 但是， 从 硬件 的 角度 来 说 ,实际 上 并 不 是 所 有 
的 thread 能 够 在 同一 时 刻 执行 。32 个 并 行 thread 组 成 了 一 个 warp。warp 是 SM 的 
基本 执行 单元 。 在 SM 中 warp 调度 器 每 个 cycle 会 挑选 warp 送 去 执行 。 一 个 被 选中 
的 warp 称 为 selected warp; 没 被 选中 、 但 是 已 经 做 好 准备 被 执行 的 称 为 eligible 
warp; 没准 备 好 要 执行 的 称 为 stalled warp, warp 适合 执行 需要 满足 下 面 两 个 条 件 : 

口 32 个 CUDA core 有 空 。 

口 所 有 当前 指令 的 参数 都 准备 就 绪 。 

图 8-22 所 示 为 用 warp 处 理 的 简单 的 执行 流程 。 当 warp0 阻塞 时 ， 执 行 其 他 的 
warp， 当 warp 变 为 eligible 时 ， 重 新 执行 。 

SMER warp 等待 


F 1 
= s = j i n | eS : | á _m | | 


无 eligible warps 可 执行 




















时 间 





图 8-22 用 warp 处 理 的 简单 的 执行 流程 
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指令 从 开始 到 结束 消耗 的 clock cycle 称 为 指令 的 latency。 当 每 个 cycle 都 有 eli- 
gible warp 被 调度 时 ， 计 算 资源 就 会 得 到 充分 利用 。 基 于 此 ， 我 们 就 可 以 将 每 个 指 
SH latency 隐藏 于 issue 其 他 warp 的 指令 的 过 程 中 。 

传统 CPU 编程 模型 都 选择 thread 作为 最 基本 的 并 行 执行 单位 。 然 而 在 该 算法 
中 ， 各 个 栅 格 内 的 数据 差异 很 大 ， 当 以 线程 作为 基本 单元 处 理 栅 格 时 ， 将 出 现 线程 
间 的 负载 不 均衡 现象 ， 因 此 thread 作为 并 行 粒度 的 编程 方法 并 不 可 行 。 在 这 种 情况 
下 ， 我 们 引入 粗 粒 度 并 行 的 概念 : 选择 warp 作为 基本 并 行 执行 和 任务 分 配 的 单位 ， 
同时 warp 内 所 有 线程 将 协同 完成 分 配给 warp 的 计算 任务 。 

warp 是 SM 的 基本 执行 单元 ， 一 个 warp 包含 32 个 并 行 thread。 这 32 个 thread 
执行 于 SMIT 模式 。 也 就 是 说 ， 所 有 thread 执行 同一 条 指令 ， 并 且 每 个 thread 会 使 
用 各 自 的 data 执行 该 指令 。 一 个 warp 中 的 线程 必然 在 同一 个 block 中 。 如 果 block 
所 含 线程 数目 不 是 warp 大 小 的 整数 倍 ， 那 么 多 出 的 那些 thread 所 在 的 warp 中 ， 会 
剩余 一 些 非 活动 的 thread， 也 就 是 说 ， 即 使 凑 不 够 warp 整数 倍 的 thread, HEELS 
为 warp 凑 足 ， 只 不 过 那些 thread 是非 活 动 状态 ， 需 要 注意 的 是 ， 即 使 这 部 分 thread 
是 非 活动 的 也 会 消耗 SM 资源 。 一 个 warp 的 context 包括 program counter, register 
和 shared memory 三 部 分 。 

在 同一 个 执行 context 中 切换 是 没有 消耗 的 ， 因 为 在 整个 warp 的 生命 周期 内 ， 
SM 处 理 的 每 个 warp 执行 context 都 是 on - chip 的 。 每 个 SM 有 一 个 32 位 register R 
合 放 在 register file 中 ,还 有 固定 数量 的 shared memory， 这 些 资 源 都 被 thread 瓜分 


























了 。 由 于 资源 是 有 限 的 ， 所 以 ， 如 果 thread 比较 多 ， 那 么 每 个 thread 占用 资源 就 较 
D>; 如 果 thread 较 少 ， 那 么 占用 资源 就 较 多 。 这 需要 根据 任务 的 需求 做 出 一 个 折 中 
选择 。 





本 书 根 据 栅 格 处 理 算法 的 特点 ,在 一 个 block 里 分 配 8 个 warp 来 使 warp 内 
thread 占有 足够 的 资源 ， 如 图 8-23 所 示 。warp 是 SM 的 基本 执行 单元 ， 即 warp 内 
的 线程 是 并 行 的 。 大 warp 内 线程 处 理 任务 所 需 的 时 间 不 同 ， 则 出 现 warp 内 的 任务 
小 的 线程 等 待 任务 大 的 线程 ， 从 而 导致 出 现 负载 不 均衡 的 问题 。 各 个 机 格 内 的 数据 
差异 很 大 ， 若 以 线程 作为 处 理 栅 格 的 基本 单元 ， 则 将 出 现 严重 的 负载 不 均衡 问题 。 
对 此 ， 本 书 采用 一 个 warp 处 理 一 个 栅 格 的 策略 来 处 理 栅 格 数据 ， 再 对 warp 内 的 线 
程 的 任务 进行 重新 分 配 ， 使 得 warp 内 任务 量 大 小 相同 来 解决 负载 不 均衡 问题 。 栅 
格 内 数据 都 与 结果 数据 有 关 ， 即 数据 之 间 有 依赖 关系 ， 此 时 原 有 的 CUDA 编程 技 
术 并 不 能 解决 该 问题 。 本 书 采 用 了 shuffle 技术 来 解决 该 问题 ， 即 通过 warp 内 的 0 
号 线程 来 获取 栅 格 内 部 数据 量 ， 其 次 通过 _ shfl ( ) 函数 将 其 将 传 到 warp 内 的 其 
他 31 个 线程 的 寄存 器 上 ， 如 图 8-24 所 示 。 

用 _shfl down () 函数 来 求 极 值 的 具体 算法 流程 如 图 8-25 所 示 。 本 书 通过 
上 述 方法 来 取代 一 个 线程 处 理 一 个 栅 格 所 需 的 单 指令 序列 ， 增 加 有 效 带 宽 和 减少 延 
述 。 对 于 栅 格 数据 来 说 ， 因 为 许多 栅 格 内 的 数据 量 并 不 超过 32 ( warpsize 的 大 小 ) , 
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传输 栅 格 数据 到 GPU 


获取 对 应 
AH warp sl 


在 所 有 warp 的 0 号 线程 

上 获取 栅 格 内 数据 量 ， 

通过 shuffle 技 术 ， 将 其 
传输 到 所 有 线程 










栅 格 数量 是 全 人 于 


warpsize (32)? 





通过 shlf 指 令 读 取 数 据 ， 
并 通过 shlf_up 补 充 栅 格 
数据 ( 栅 属 内 已 有 数据 ) 






通过 shuffle 撑 术 , 求 得 
栅 恪 内 数据 最 小 值 







通过 使 用 shlf down 规 
约 求 得 栅 格 内 数据 最 小 值 











计算 机 格 内 数据 的 高 度 与 
这 合用 ShN down ALAI ie Sabie RS e 
DENA J H/N J ZEH- PAR A Ze 
KAE rege ae ace 

再 (同上 ) 补 充 数据 


通过 使 用 shlf down 
规约 求 得 差 值 最 大 值 














计算 输出 相对 高 度 


图 8-23 warp 处 理 栅 格 流程 图 





所 以 在 该 并 行 模式 下 ， 只 需 访 问 一 次 全 局 内 存 ， 即 可 将 此 栅 格 的 数据 读 和 寄存器， 
从 而 避免 了 多 次 访问 该 栅 格 的 数据 ， 减 少 了 访问 消耗 。 
3. 数据 本 地 化 


数据 本 地 化 是 指 将 数据 从 片 外 内 存 (local memory, global memory, constant 
memory 和 texture memory) 转移 到 片 内 (register, shared memory), ， 并 实现 数据 共 


享 ， 以 此 来 减少 片 外 内 存 访 存 的 依赖 。 因 此 ， 可 以 通过 数据 本 地 化 ， 减 少 对 global 
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if ( laneid==0 ) //the zero — number thread 
n=cgeshu[sgwei]; 
n=_shfl(n,0);//gets the amount of data in the grid 














图 8-24 A shfl () 函数 获取 权 格 内 部 数据 量 信 息 








for(int offset = n/2+1;offset>0;offset/=2) 
height=height< shfl down(height.offset.n)?heighe: shf down(height,offset,n); 


图 8-25 用 shfl down () 求 极 值 











memory 的 访 存 依赖 ， 从 而 提高 算法 性 能 。 

就 栅 格 处 理 程 序 而 言 ， 在 warp 处 理 完 一 个 栅 格 数据 后 ， 其 结果 数据 只 有 一 个 ， 
若 直 接 访问 全 局 内 存 ， 那 么 一 个 bock 内 将 会 发 生 多 次 访 存 请 求 ， 增 加 访 存 开销 ， 
大 大 影响 处 理性 能 。 因 此 ， 本 书 采 用 数据 本 地 化 的 方法 ， 即 每 个 warp 在 处 理 完 一 
个 栅 格 数据 后 ， 并 不 急于 将 结果 写 回 全 局 内 存 ， 而 是 将 结果 数据 放 和 人 shared memo- 
ry 上 。 在 该 block 所 有 的 warp 处 理 完 后 ， 启 用 第 0 个 warp 一 次 性 将 所 有 结果 数据 
存 人 全 局 内 存 中 ， 从 而 减少 对 全 局 内 存 的 访问 ， 减 少 对 访 存 带宽 的 依赖 。 其 具体 流 
程 如 图 8-26 所 示 。 














存放 结果 数据 介 通过 0 号 warp 一 次 性 人 
shared memory 放 人 到 global memory 


图 8-26 数据 本 地 化 流程 图 


8. 4.4 ”性 能 评估 


1. 实验 平台 

本 书 应 用 北京 联合 大 学 C70 智能 车 上 使 用 的 工控 机 和 NVIDIA Tegra X1 作为 两 
个 性 能 对 比 平台 。 其 中 工控 机 是 Inter i7 的 高 配置 计算 机 ，NVIDIA Tegra X1 是 由 
ARM 和 GPU 组 合 而 成 的 。 其 具体 配置 见 表 8-4。 























表 8-4 平台 配置 
工控 机 配置 TX] 配置 
Inter (R) Core (TM) 、 ARM 4 x ARM Coretex A53 
处 理 器 : 
i7CPU M620 处 理 需 +4 x ARM Coretex A57 
处 理 器 频率 2. 67GHz GPU 架构 Maxwell 
内 存 8. 00GB 内 存 SMs 2 
CUDA Cores 256 CUDA Cores 
操作 系统 Windows7 
RERI uga N Me 
64 位 操作 系统 1. 6GHz 
Clock rate 
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2. 雷达 算法 性 能 分 析 

本 小 节 激 光 雷 达 测 试 数据 采集 于 障碍 物 较 少 的 简单 道路 环境 和 障碍 物 较 多 的 复 
林道 路 环境 ， 并 以 这 两 种 数据 进行 激光 雷达 数据 处 理性 能 分 析 。 人 简单 道路 环境 激光 
雷达 数据 处 理 显示 如 图 8-27 所 示 ， 复 杂 道 路 环境 激光 雷达 数据 处 理 显 示 如 图 8-28 
所 示 。 





























图 8-27 简单 道路 环境 激光 雷达 数据 处 理 显示 图 8-28 复杂 道路 环境 激光 雷达 数据 处 理 显示 








(1) 栅 格 投影 

传统 激光 雷达 顶 格 投影 处 理 方式 是 将 栅 格 数据 存放 在 pageable memory 上 ， 如 
果 采 用 该 方式 存放 栅 格 数据 ， 则 GPU 与 CPU 的 传输 只 能 cudaMemcpy ( ) 来 进 
行 〈 目 前 Tegra X1 不 支持 将 已 有 数据 的 pageable memory 直接 锁定 为 pinned memo- 
ry)。 传 输 32MB 的 数据 在 pageable memory 上 host 传输 到 device 传输 的 实际 带宽 
为 2236. 1IMB/s， 传 输 较 大 的 顶 格 数据 到 GPU 的 消耗 是 极 大 的 。 

为 此 ， 本 书 将 栅 格 数据 存放 在 pinned memory 上 。 因 为 Tegra X1 的 CPU 和 GPU 
内 存 共 享 ， 所 以 数据 在 pinned memory 上 的 访 存 性 能 与 在 page memory 上 相当 。 再 
结合 Tegra X1 ARM 的 特点 对 顶 格 投影 进行 优化 ， 优 化 后 Tegra X1 与 工控 机 的 性 能 
对 比如 图 8-29 所 示 。 本 书 采用 基于 Tegra X1 ARM 优化 后 的 栅 格 投影 算法 来 处 理 不 
同道 路 环境 下 的 激光 雷达 数据 。 从 图 8-29 可 以 看 出 ， 投 影 后 的 栅 格 数据 存放 在 
pinned memory 的 性 能 优 于 存放 在 pageable memory ， 其 性 能 相 较 于 工控 机 的 性 能 
了 5 ~6 倍 的 提升 。 

(2) 栅 格 处 理 

本 书 首先 完成 栅 格 投影 后 的 栅 格 数据 基于 Tegra X1 ARM 处 理 算法 的 优化 ， 对 
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基于 TX1 棚 格 投 影 与 基于 工控 机 的 性 能 对 比 图 
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re 
lo =) 


= 日 BA IDS 


简单 道路 环境 


























工控 机 TX1 pinned TX1 pinable 


图 8-29 优化 后 Tegra X1 与 工控 机 栅 格 投影 性 能 对 比 


于 不 同 环境 的 激光 雷达 数据 其 处 理性 能 相 较 于 工控 机 的 性 能 有 2 ~ 2.2 倍 的 提升 ， 
其 性 能 对 比如 图 8-30 所 示 。 


PE =m eee 
0 


B 复杂 道路 环境 





ms/ 帧 





工控 机 TX1 CPU 


8-30 Tegra X1 ARM 优化 与 工控 机 栅 格 处 理 的 性 能 对 比 





GPU 优化 时 考虑 到 栅 格 之 间 毫 无 依赖 关系 ， 即 有 良好 的 并 行 性 ， 因 此 尝试 采 
用 一 个 线程 处 理 一 个 栅 格 的 方法 来 进行 并 行 处 理 ， 以 提高 处 理性 能 ， 再 将 处 理 后 的 
数据 放 和 共享 内 存 中 , 来 提高 global memory 的 访 存 效率 。GPU 采用 SIMT (Signal 
Instruction Multiple Thread ， 单 指令 多 数据 ) 编程 模型 ， 其 调度 和 执行 的 基本 单位 是 
warp。 其 最 终 执行 时 间 由 执行 时 间 最 长 的 线程 决定 。 如 图 8-27 所 示 ， 对 于 道路 障 
碍 物 较 少 的 简单 环境 ， 各 个 线程 的 负载 比较 均衡 ，warp 间 的 负载 不 均衡 的 现象 并 
不 严重 。 如 图 8-28 所 示 ， 对 于 道路 障碍 物 较 多 的 复杂 环境 ， 各 个 线程 的 负载 极度 
不 均衡 ，warp 间 的 负载 不 均衡 很 严重 。 

当 以 thread 作为 处 理 单元 时 ， 激 光 雷 达 栅 格 数据 处 理 的 稳定 性 比较 差 。 本 书 采 
用 粗 粒 度 并 行 的 方法 来 处 理 栅 格 数据 ， 即 以 一 个 warp 处 理 一 个 栅 格 ， 可 获得 较 高 
的 稳定 性 ， 如 图 8-31 ( 见 彩 插 ) 所 示 。 

由 于 采用 warp 作为 处 理 单元 ， 其 处 理 对 应 的 机 格 结果 为 一 个 数据 ， 直 接 访问 
global memory 的 代价 很 高 ， 因 此 本 书 将 处 理 后 的 结果 放 入 shared memory 中 ( 即 数 
据 本 地 化 ) ， 从 而 实现 合并 访 存 ， 提 高 global memory 的 访 存 效率 。 采 用 warp 作为 
处 理 单元 加 数据 本 地 化 的 处 理性 能 远 远 高 于 采用 thread 作为 处 理 单元 的 处 理性 能 ， 
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Al 8-31 栅 格 处 理 数据 稳定 性 对 比 
也 高 于 只 采用 warp 作为 处 理 单元 方法 的 处 理性 能 ， 其 性 能 对 比如 图 8-32 所 示 。 
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thread warp warp+share 


Al 8-32 Tegra X1 GPU 栅 格 处 理 的 性 能 对 比 





(3) 实 车 测试 

一 个 完整 的 激光 雷达 数据 处 理 算 法 包括 数据 获取 、 数 据 解 析 、 障 碍 物 检 测 、 道 
路 检测 和 路 径 规划 等 几 个 算法 模块 。 本 书 在 对 激光 雷达 数据 处 理 算法 优化 之 前 ， 首 
先 对 这 几 种 算法 在 NVIDIA Tegra X1 上 进行 性 能 测试 。 测 试 结果 发 现 障碍 物 检测 算 
法 耗 时 最 长 ， 其 他 几 个 算法 模块 在 NVIDIA Tegra X1 上 所 耗 时 间 并 不 长 。 因 此 本 书 
的 主要 工作 是 对 障碍 物 检 测算 法 进行 了 大 量 的 优化 ， 对 其 他 几 个 算法 模块 只 做 了 少 
量 的 优化 。 基 于 NVIDIA Tegra X1 的 32 线 激光 雷达 优化 后 的 算法 ， 已 在 北京 联合 
大 学 C70 智能 车 上 完成 行驶 实验 。 对 比 Tegra X1 和 工控 机 处 理 数据 性 能 分 析 ， 发 
现 从 雷达 上 读 取 数据 Tegra X1 和 工控 机 性 能 相差 不 大 ,但 其 处 理性 能 是 采用 工控 
机 处 理 激光 雷达 数据 的 5 ~6 倍 。 具 体 如 图 8-33 所 示 。 























80 
60 
4 
= 40 日 工控 机 
20 目 TXI1 
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读 取 数据 处 理 数据 
图 8-33 ”激光 雷达 Tegra X1 与 工控 机 处 理 数 据 的 性 能 对 比 
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8.5 ”本章 小 结 


本 章 讲述 了 车 载 雷 达 系 统 的 发 展 以 及 相关 的 激光 雷达 算法 。 为 了 提高 实时 性 要 
求 ， 通 过 采用 zero - copy、 粗 粒度 并 行 和 使 用 shared memory 的 方法 ， 来 对 激光 雷达 
数据 处 理 算 法 进行 加 速 。 实 验 结果 表明 ， 优 化 后 的 算法 不 仅 在 性 能 上 得 到 了 明显 的 
提升 ， 而 且 拥有 更 好 的 实时 性 ， 提 高 了 其 工程 应 用 价值 。 

本 章 以 基于 三 维 激光 雷达 的 雷达 数据 处 理 算法 来 讨论 基于 异 构 平 台 的 激光 雷达 
算法 在 无 人 驾 台 的 应 用 。 在 保证 处 理 效果 的 基础 上 ， 对 算法 进行 优化 ， 从 而 提高 无 
人 车 的 检测 性 能 ， 对 提高 智能 性 和 安全 性 以 及 解决 现实 问题 具有 一 定 的 参考 价值 。 
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长 期 以 来 ， 性 能 一 直 是 高 性 能 计算 机 系统 研制 中 优先 考虑 的 主要 目标 。 微 电子 
技术 的 变革 与 计算 机 体系 结构 的 创新 使 得 高 性 能 计算 机 系统 的 性 能 有 了 明显 的 提 














高 。 然 而 ， 随 着 高 性 能 计算 机 性 能 的 快速 提升 ， 高 性 能 计算 机 系统 规模 越 来 越 大 ， 
能 耗 也 随 之 急剧 增加 。 能 耗 的 增加 使 系统 运行 成 本 提高 。 能 耗 的 增加 影响 系统 可 靠 
性 。 能 耗 的 增加 会 对 环境 带 来 负面 影响 。 近 9 年 Top500 中 第 一 名 能 耗 性 能 变化 趋 
势 如 图 9-1 所 示 。 
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图 9-1 近 9 年 Top500 中 第 一 名 能 耗 性 能 变化 趋势 











随 着 能 耗 问题 的 日 益 突出 ， 衡 量 高 性 能 计算 机 系统 的 标准 中 逐渐 增加 了 能 效 指 
标 。Green Top500 以 能 效 (ED MFlops - per - Watt) 来 评价 超级 计算 机 ，2016 年 6 
FA, Green top 500 的 前 十 名 如 表 9-1 所 示 ， 可 以 看 到 每 瓦 的 百 万 浮 点 指令 数 是 其 排 
名 依据 。Green Grid 使 用 电源 使 用 效率 (PUE, Power Usage Efficiency) 对 计算 机 系 
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统 进行 评价 。 工 业界 推出 了 评价 多 节点 计算 机 能 耗 和 性 能 特征 的 标准 基准 测试 工具 






































SPECpower _ ssj2008。 可 见 ， 能 耗 与 性 能 一 样 ， 已 经 成 为 衡量 高 性 能 计算 机 系统 的 
一 个 重要 指标 。 
表 9-1 2016 年 11 月 Green500 的 前 十 名 
Green500 、 、 
_ | MFLOPS/W 地 址 系统 总 功率 /kW 
排名 
NVIDIADGX - 1，XeonE5 - 
1 9462. 1 NVIDIACorporation 2698v420C2.2GHz, = InfinibandEDR, 349.5 
NVIDIA TeslaP100 
Swiss National CrayXCSO , XeonkES = 
2 7453. 5 SupercomputingCentre 2690v312C2.6GHz, Aries intercon- 1312 
(CSCS) nect, NVIDIA TeslaP100 
Advanced Center for ZettaScaler - 1.6, XeonES - 
3 6673. 8 Computing and 2618Lv38C2.3GHz, —InfinibandFDR, 150. 0 
Communication, RIKEN PEZY -SCnp 
National Supercomputing SunwayMPP, SunwaySW26010- 
4 6051.3 15371 
CenterinWuxi 260C1.45GHz, Sunway 
FujitsuTechnology PRIMERGYCX1640M1, IntelXeon- 
5 5806. 3 77 
SolutionsGmbH Phi721064C1. 3GHz, IntelOmni — Path 
Joint Centerfor Advanced PRIMERGYCX1640M1, IntelXeon- 
6 4985. 7 2718.7 
High Performance Computing| Phi725068C1.4GHz, Intel Omni - Path 
DOE/SC/ Argonne CrayXC40, IntelXeonPhi723064- 
7 4688. 0 1087 
National Laboratory C1. 3GHz, Ariesinterconnect 
CrayCS - Storm, IntelXeonES 一 
Stanford Research 
8 4112.1 2680v210C2. 8GHz, InfinibandFDR, 190 
Computing Center 
Nvidia K80 
Academic Center for 
CrayXC40, IntelXeonPhi725068- 
9 4086.8 ”|Computing and Media Studies 748. 1 
C1. 4GHz, Ariesinterconnect 
( ACCMS) , KyotoUniversity 
ThomasJefferson KOICluster, IntelXeonPhi723064- 
10 3836. 6 111 
National Accelerator Facility | C1. 3GHz, Intel Omni - Path 





因此 ， 强 劲 性 能 如 今 不 再 是 衡量 超级 计算 机 价值 和 影响 力 的 唯一 指标 。 日 益 增 








加 的 能 耗 已 成 为 制约 高 性 能 计算 机 系统 发 展 的 主要 瓶颈 之 一 。 
NVIDIA DGX -1 位 列 Green500 第 一 名 ， 它 是 NVIDIA 公司 设计 的 首 款 单机 箱 
人 工 智 能 超级 计算 机 。 而 其 使 用 的 Pascal 架构 是 非常 强大 的 GPU 内 置 计 算 架 构 。 








OK 
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它 让 普通 计算 机 变 成 性 能 强大 的 超级 计算 机 。 在 深度 学 习 方 面 ， 与 当前 这 代 GPU 
架构 相 比 ， 由 Pascal 支持 的 系统 的 神经 网 络 训练 性 能 提高 了 10 售 。 

提供 更 高 的 性 能 和 提高 能 效 是 新 的 GPU 架构 的 两 个 关键 目标 。 与 Kepler 架构 
相 比 ，Maxwell 架构 中 的 SM 做 了 许多 改变 ， 提 高 了 其 性 能 。Pascal 架构 在 这 一 基础 
上 还 进行 了 额外 的 改进 ， 使 我 们 能 够 提高 每 瓦 的 性 能 ， 甚 至 能 超过 Maxwell 架构 。 
尽管 TSMC 的 16nm FinFET 晶体 管制 造 工 艺 起 着 重要 作用 ， 但 也 实施 了 许多 GPU 
架构 修改 ， 以 进一步 降低 能 耗 ， 同 时 保持 高 性 能 。 并 且 Pascal 的 SM 具有 更 简单 的 
数据 路 径 组 织 ， 需 要 更 少 的 裸 片面 积 和 更 少 的 能 耗 来 管理 SM 内 的 数据 传输 。Pas- 
cal 还 提供 优越 的 调度 和 重 琶 的 加 载 / 存 储 指令 ， 以 增加 译 点 利用 率 。GP100 中 的 新 
SM 调度 器 架构 促进 了 Maxwell 调度 器 的 进步 ， 使 之 更 加 智能 ， 从 而 提供 更 高 的 性 
能 和 更 低 的 能 耗 ， 使 每 个 warp 调度 器 (每 个 处 理 块 一 个 ) 能 够 在 单位 时 钟 内 调度 


两 个 warp 指令 。 
































9.2 能 效 评价 指标 








系统 的 性 能 和 能 耗 都 应 该 是 可 以 测量 的 。 要 评价 一 个 给 定 系 统 的 效率 ， 使 用 什 
么 样 的 度量 标准 是 非常 重要 的 。 度 量 标准 可 以 对 能 耗 进 行 定性 定量 测试 ， 据 此 评估 
系统 的 能 效 ， 并 作为 决策 的 基础 。 目 前 ， 许 多 这 样 的 度量 标准 已 经 被 提出 并 使 用 。 
它们 包括 度量 独立 设备 和 融 件 的 度量 标准 ， 也 包括 高 性 能 计算 机 系统 方面 的 标准 。 

一 个 度量 CPU 的 能 耗 的 指标 是 MIPJ (millions - of - instructions - per — joule) , 
即 每 焦耳 的 百 万 条 指令 数 。MIPS (Million Instructions Per Second) 是 每 秒 百 万 条 指 
令 ， 即 表示 单位 时 间 内 的 负载 工作 量 ，W 则 表示 电能 消耗 (PL), 1J=1W-s, BI 
IW 的 机 械 工 作 1s 释放 的 能 量 为 1J]。 该 指标 通常 评价 在 使 用 动态 电压 调节 方式 时 
的 能 耗 。 在 低能 耗 电路 设计 领域 最 常用 的 能 耗 指标 基于 Edn ÉR, HF “E” RI 
REFE, “d? EBE, n 是 一 个 非 负 整数 。 当 Edn 在 n> =2 时 ， 作 为 对 比 两 个 
超级 计算 机 设计 的 能 效 标准 时 ， 对 大 规模 并 行 HPC 架构 会 有 偏差 。 

当前 高 性 能 计算 机 系统 中 ， 对 节能 技术 效果 的 度量 ， 比 较 常用 的 系统 标准 包括 
以 下 三 种 ; 

1) 能 效 比 。 实 际 上 它 是 从 Edn 衍生 出 的 ， 作 为 超级 计算 机 的 衡量 指标 。 表 示 
为 FLOPS/W, FLOPS (Floating Point Operations Per Second) 表示 每 秒 浮 点 运算 数 。 
能 效 比 就 是 每 瓦 的 每 秒 浮 点 运算 数 。 目 前 的 Green500 排行 榜 就 是 采用 此 评价 标准 
进行 排名 的 。 

2) 电源 使 用 效率 (PUE, Power Usage Efficiency) 。 这 是 绿色 网 格 组 织 Green 
Grid 提出 的 指标 。 该 指标 的 定义 如 下 所 示 : 
Total Facility Power 














PUE = 





IT Equipment Power 
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式 中 ，Total Facility Power 为 整个 数据 中 心 总 耗 电量 ; IT (Information Technology ) 
EquipmentPower 为 用 于 文 持 数据 中 心中 所 有 IT 设备 的 耗 电 量 。 包 括 计算 设备 、 存 
储 和 网 络 等 。 而 总 耗 电 量 则 包括 一 切 支 持 设备 消 耗 的 电量 ， 如 冷却 系统 、 电 力 传输 
系统 和 其 他 基础 设施 等 。 电 源 使 用 效率 越 接近 1 表示 整体 效率 越 高 。 

3) 总 拥有 成 本 (TCO, Total Cost of Ownership), TCO 由 两 部 分 组 成 : 购置 成 
本 和 运营 成 本 。TCO 是 一 种 经 济 上 的 技术 评价 标准 ， 其 目的 是 帮助 消费 者 和 企业 
管理 者 判断 产品 或 系统 的 直接 和 间接 成 本 。 现 在 也 被 用 于 评价 大 型 集群 系统 或 数据 
中 心 。 

目前 有 两 个 测试 基准 ， 分 别 是 : EECoMark 工具 和 SPECpower ssj2008 测试 标 
准 。EECoMark 工具 是 由 Windows 基准 测试 组 织 BAPCo 与 欧洲 计算 机 制造 商 协会 
(ECMA, European Computer Manufacturer Association) 共同 开发 的 ， 以 节能 效率 为 
前 提 衔 量 个 人 电脑 的 性 能 水 平 。 

SPECpower _ ssj2008 测试 标准 是 由 著名 的 标准 性 能 评价 公司 (SPEC, Standard 
Performance Evaluation Corporation) 发 布 的 。 它 是 工业 界 第 一 个 用 来 评价 多 节点 计 
算 机 能 耗 和 性 能 特征 的 标准 基准 测试 工具 。 该 标准 提供 了 一 种 测量 能 耗 (交流 输 
A) 的 方式 ， 该 标准 既 可 以 作为 一 个 测试 基准 ， 用 于 比较 不 同 服务 器 的 能 耗 和 性 
能 ， 也 可 以 作为 一 个 工具 集 ， 用 于 改善 服务 需 的 能 效 ， 有 助 于 管理 员 了 解 能 耗 特 
性 ， 提 高 数据 中 心机 房 的 效率 。 

评价 能 效 调度 时 必须 考虑 能 源 消 耗 和 调度 指标 。 为 解决 最 小 化 能 耗 和 满足 调度 
间 标 的 双重 标准 ， 针 对 离线 任务 调度 算法 ， 采 用 一 个 线性 时 间 算 法 ， 可 用 于 计算 单 
处理 右 机 器 上 的 调度 问题 。 在 多 人 处 理 带 方面 ， 当 每 个 作业 需要 相同 数量 的 任务 工作 
时 ， 也 可 以 快速 得 到 其 近似 最 优 值 。 

提供 良好 的 服务 (如 响应 时 间 ) 表示 系统 性 能 的 高 低 ， 它 和 节约 能 源 是 相互 
冲突 的 两 个 目标 。 调 度 的 一 个 重要 问题 就 是 如 何 很 好 地 权衡 性 能 与 能 耗 。 非 迁移 调 
度 意 味 着 在 多 处 理 器 上 调度 并 行 作 业 时 要 消除 迁移 。 该 算法 使 用 分 类 轮转 调度 策略 
调度 作业 。 在 最 坏 情 况 下 ， 它 的 性 能 是 最 优 迁移 离线 算法 的 O (log P) w, HP P 
是 最 大 作业 与 最 小 作业 的 比率 。 


9.3 各 层次 能 耗 优化 策略 


能 耗 问 题 越 来 越 受 到 国内 外 产业 界 和 学 术 界 的 重视 。 在 高 性 能 计算 机 系统 的 能 
耗 优化 技术 方面 目前 已 开展 的 研究 工作 ， 主 要 集中 在 以 下 几 个 方面 ; 

1) 基础 架构 级 的 节能 技术 。 主 要 包括 液 冷 、 存 储 制 冷 、 高 效能 电源 、 高 效能 
散热 冷却 技术 等 诸多 技术 。 高 效能 散热 冷却 技术 包括 研究 效率 更 高 的 散热 方式 和 性 
能 更 好 的 冷却 设备 ， 如 HP PARSEC 体系 结构 、IBM 的 机 房 冷却 系统 等 。 存 储 制 冷 
(Stored Cooling) 指 预 先 基 于 制冷 设备 存储 部 分 制冷 能 力 ， 在 需要 时 再 有 效 释放 ， 
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类 似 电池 的 储 电 功 能 。 液 冷 技术 包括 水 冷 及 液态 金属 制冷 ， 它 在 当前 大 型 计算 机 中 
使 用 越 来 越 普遍 。 该 技术 从 系统 布局 方面 进行 能 耗 优 化 ， 其 优化 空间 有 限 。 

2) 芯片 级 和 部 件 级 的 节能 技术 。 主 要 包括 CPU 能 耗 控制 、CPU 频率 调整 和 专 
用 低能 耗 部 件 。CPU 加 工 工艺 的 不 断 提 升 ， 多 核 技 术 和 在 CPU 中 集成 内 存 控制 天 
技术 的 出 现 ， 都 在 提高 性 能 的 同时 ， 降 低 了 主板 芯片 组 的 能 耗 。 另 一 方面 ， 通 过 降 
低 电压 和 频率 也 可 以 降低 CPU 的 动态 能 耗 。Intel 推出 的 动态 能 耗 节点 管理 器 就 是 
一 个 内 髋 于 忌 片 组 的 带 外 功率 管理 策略 引擎。 它 与 BIOS 和 操作 系统 能 耗 管理 协 
作 ， 动 态 地 调整 平台 能 耗 。 在 专用 低能 耗 部 件 人 研究 方面 ， 包 括 高 级 内 存 缓存 AMB 
SFr. SSD 固态 电子 便 盘 等 技术 与 产品 。 该 技术 控制 粒度 较 细 ， 但 均 属 于 局 部 优化 
方法 ， 有 可 能 对 全 局 造成 负 反 馈 。 

3) 系统 级 的 节能 技术 。 系 统 级 节能 技术 包括 : 基于 负载 情况 动态 调整 系统 状 
态 ， 实 施 部 分 节点 或 部 件 的 休眠 的 技术 。 根 据 各 个 进程 能 耗 的 不 同 对 CPU 任务 队 
列 进行 调整 ， 把 一 些 产生 较 多 热量 的 任务 从 温度 较 高 的 CPU 上 迁移 到 温度 较 低 的 
CPU 上 ， 从 而 实现 能 耗 均衡 的 技术 等 。 该 技术 主要 是 从 系统 全 局 进行 能 耗 优化 。 
相对 于 其 他 级 别 的 低能 耗 技术 ， 系 统 级 的 能 耗 优化 技术 是 新 兴 的 技术 ， 从 全 局 角度 
对 整体 能 耗 进行 优化 。 可 以 避免 局 部 的 能 耗 控制 对 整体 造成 负 反 馈 ， 从 而 达到 全 局 
最 优 控 制 。 

表 9-2 显示 了 不 同 层次 上 能 耗 优 化 方法 的 关注 点 以 及 各 自 的 优势 和 不 足 。 可 以 
看 出 ， 基 础 架构 级 的 能 耗 优 化 需要 计算 机 外 的 其 他 知识 ， 而 且 优 化 空间 有 限 ; 部 件 
或 芯片 级 控制 粒度 比较 细 ， 但 是 局 部 优化 可 能 对 全 局 产生 负面 影响 ;系统 级 方法 则 
主要 通过 资源 分 配 等 软件 方法 进行 ， 控 制 粒 度 较 粗 ， 可 以 从 全 局 角度 进行 能 耗 
优化 。 


















































表 9-2 不 同 级 别 的 能 耗 优 化 方法 优 缺 点 对 比 





























能 耗 优 化 层次 主要 工作 优势 不 足 
基于 作业 调度 的 节点 休眠 从 全 局 角度 对 整体 能 耗 
系统 级 能 耗 感知 的 作业 调度 及 资源 分 配 | 控制 ， 可 避免 局 部 能 耗 管 | 控制 粒度 较 粗 


面向 能 耗 的 进程 与 作业 级 迁移 “| 控 对 整体 造成 的 负 反馈 





根据 系统 负载 ， 实 施 部 分 部 件 的 



































部 件 级 A 
CRE Ee oe 从 局 部 进行 优化 ,可 
ro CPU 能 耗 控 制 、CPU 频率 调整 和 能 对 全 局 产生 负 反 馈 
nana 专用 低能 耗 部 件 
存储 制冷 、 高 效能 电源 、 高 效能 E tAk 2s iJ A ， ese 
基础 架构 级 存储 制冷 、 高 效能 电源 、 高 效能 从 系统 布局 方面 优化 优化 空间 有 限 ， 需 计 





























散热 冷却 技术 等 算 机 外 的 其 他 知识 
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9.4 系统 级 能 耗 优化 技术 


从 作业 调度 和 任务 分 配 控制 系统 的 能 量 消耗 是 系统 级 能 耗 优化 的 关键 技术 
gos 

动态 电源 管理 (DPM) 是 一 种 根据 工作 负载 变化 ,选择 性 地 设置 系统 部 件 到 
低能 耗 状 态 或 关闭 部 分 系统 部 件 ， 以 最 小 的 活动 部 件数 目 或 最 小 的 部 件 能 耗 来 提供 
系统 所 需 服务 和 性 能 级 别 的 方法 。 该 方法 最 早 被 应 用 于 单机 系统 中 。 在 机 群 中 则 表 
现 为 关闭 或 休眠 暂时 不 用 的 节点 或 设备 。 由 于 动态 电源 管理 需 按 照 系统 负载 变化 适 
时 采用 。 因 此 ， 可 将 其 与 调度 系统 相 结合 。 目 前 在 高 性 能 计算 机 系统 中 多 与 作业 调 
度 系统 结合 使 用 。 

广义 上 讲 ， 动 态 电源 管理 可 以 在 三 个 级 别 上 实施 ,分 别 是 CPU 级 、 单 机 系统 
级 和 机 群 级 。CPU 级 为 动态 电压 频率 调节 方法 ,单机 系统 级 的 动态 电源 管理 策略 
是 指 对 系统 部 件 能 耗 状态 转换 时 机 和 选择 何 种 状态 做 出 决策 ， 主 要 分 为 超时 策略 、 
基于 预测 的 启发 式 策略 和 基于 随机 过 程 的 优化 策略 。 在 机 群 系统 级 ， 通 过 动态 电源 
管理 降低 能 耗 的 基本 思想 是 粗 粒 度 地 调节 处 于 活动 状态 的 服务 器 数量 ， 即 关闭 或 休 
眠 系统 中 某 些 空闲 的 节点 ， 以 适应 变化 的 系统 需求 。 

DPM 技术 实施 需要 一 定 的 前 提 。 首 先 ， 系统 中 的 工作 负载 是 不 断 变化 的 ， 这 
样 才 能 存在 资源 组 件 的 空闲 期 ， 将 其 关闭 或 转 为 低能 耗 状态 ; 其 次 ， 工 作 负 载 的 起 
伏 变化 是 可 以 预测 的 ， 即 能 决定 何 时 改变 设备 状态 。 

动态 电压 频率 调节 (DVFS) 从 广义 上 说 是 一 种 CPU 级 的 动态 电源 管理 方法 。 
目前 的 大 多 数 处 理 器 都 支持 动态 电压 调节 ， 该 方法 被 普遍 运用 在 实时 系统 中 。 
DVFS 人 允许 处 理 器 在 运行 时 动态 改变 速度 和 电压 ， 这 样 可 以 使 运行 周期 扩展 到 空闲 
时 间 ， 从 而 节约 能 源 。 因 为 CPU 速度 和 能 耗 之 间 的 关系 是 非 线 性 的 ， 作 业 运 行 时 
可 以 通过 将 运行 周期 分 散 到 空 亲 周期， 而 不 采用 先 让 CPU 全 速 运行 ， 之 后 闲置 的 
方式 。 处 理 央 以 较 低 的 速度 运行 时 消耗 较 少 的 电能 。 因 此 ， 通 过 使 任务 运行 时 降低 
电压 和 频率 来 降低 能 耗 是 可 行 的 。 

松弛 时 间 (slack time) 指 在 实时 系统 中 前 一 个 操作 在 截止 期 之 前 完成 所 剩 的 
时 间 ， 此 时 可 以 采用 DVFS 来 节能 。 越 多 松弛 时 间 可 以 用 于 频率 和 电压 调节 以 节 
能 ， 则 用 于 容错 的 松弛 时 间 就 会 越 少 。 这 样 可 能 导致 可 靠 性 降低 ， 并 且 有 时 会 引起 
延迟 。 因 此 ， 各 种 反馈 控制 技术 被 采用 。 

在 机 群 作业 调度 系统 中 ,传统 调度 算法 的 评价 指标 主要 集中 在 性 能 方面 , 包 
括 : 资源 利用 率 、 吞 吐 率 、 作 业 平 均 响 应 时 间 等 。 由 于 能 耗 问题 日 趋 明 显 ， 基 于 原 
有 算法 研究 能 效 感 知 的 调度 算法 越 来 越 多 。 目 前 对 能 效 感知 的 调度 算法 的 研究 呈现 
多 角度 的 趋势 。 从 任务 模型 来 看 ， 有 独立 任务 、 树 型 任务 和 基于 有 向 无 环 图 
(DAG, Directed Acyclic Graph) 模型 的 任务 ; 从 适用 环境 来 看 ， 有 网 格调 度 和 机 群 
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作业 调度 。 近 年 来 ， 随 着 机 群 能 耗 问题 的 凸显 ,研究 者 开始 从 调度 算法 入 手 研 究 降 
低 系 统 能 耗 的 方案 。 主 要 是 通过 一 般 调度 算法 中 加 入 能 耗 计算 以 及 能 耗 控 制 的 方法 
来 实现 任务 执行 过 程 中 的 能 耗 优化 。 

从 冷却 角度 研究 热量 感知 或 温度 感知 的 调度 算法 也 逐渐 增多 。 高 性 能 计算 机 系 
统 中 的 电能 消耗 表现 在 系统 设备 和 冷却 设备 两 个 方面 。 对 于 一 个 大 型 数据 中 心 ， 每 
年 的 能 耗 成 本 高 达 几 百 万 美元 ， 而 其 中 近 一 半 是 冷却 成 本 。 由 于 机 群 系统 大 多 采用 
机 房 空 调 系统 (Computer Room Air Conditioning, CRAC) 进行 冷却 。 图 9-2 ( 见 彩 
ii) 显示 了 系统 中 具有 不 同 状态 节点 的 示意 图 。 由 于 负载 分 布 的 不 均匀 、 异 构 硬 
件 特点 、 基 础 设施 的 分 布 不 均匀 〈 即 交换 机 、 存 储 、 备 份 设备 等 在 系统 中 位 置 的 
多 变性 ) 以 及 其 他 的 一 些 因素 ， 热 区 问题 是 不 可 避免 的 。 机 房 过 热 实际 上 是 指 
“局 部 过 热 ”， 即 形成 了 相对 集中 的 发 热量 过 大 机 柜 形 成 的 过 热 区 域 。 
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图 9-2 节点 状态 























. 
二 
æ 
DVYYD 

















系统 布局 图 中 可 以 看 到 有 热 区 出 现 。 为 解决 “ 热 区 ”(hot spot) 问题 ， 除 了 很 
多 基础 架构 级 别 的 诸如 冷却 系统 布局 等 方法 外 ， 商 业 资 源 管 理 和 调度 系统 LSF 
(Load Sharing Facility) 提出 了 按照 节点 所 在 的 空间 位 置 选择 合适 的 节点 ， 使 热量 
聚集 最 小 化 。 负 载 管理 系统 按照 事先 收集 到 的 应 用 程序 的 能 耗 数据 ， 分 配 时 优先 使 
用 最 冷 的 节点 。 在 很 多 情况 下 ， 关 于 能 耗 的 数据 不 能 事先 获得 。 针 对 冷却 成 本 增 
加 ， 温 度 感 知 的 负载 分 配 策略 可 以 降低 冷却 成 本 。 通 过 探究 热量 传递 的 物理 特点 ， 
从 系统 热力 学 角 进 行 分 析 ， 然 后 依据 其 冷却 成 本 对 各 服务 器 赋予 优先 级 。 
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9.5 ”本章 小 结 


作为 服务 于 多 领域 科学 计算 应 用 的 高 性 能 计算 机 系统 ， 随 着 计算 机 系统 的 规模 
越 来 越 大 ， 在 计算 速度 飞速 提高 的 同时 ， 系 统 能 耗 成 为 高 性 能 计算 机 发 展 面临 的 重 
大 挑战 。 

在 分 析 实 际 负载 的 基础 上 ， 设 计 根据 负载 动态 变化 的 节点 调整 策略 ， 并 且 要 能 
自 适 应 不 同 负载 特征 的 系统 需求 ， 权 衡 能 耗 和 性 能 的 关系 。 在 保证 不 影响 任务 完成 
时 间 情 况 下 ， 更 大 程度 地 节约 能 耗 。 
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